GatherPlatform数据抓取平台


Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.
资源截图
代码片段和文件信息
package com.gs.spider.controller;

import com.gs.spider.model.async.State;
import com.gs.spider.model.async.Task;
import com.gs.spider.model.utils.ResultBundle;
import com.gs.spider.model.utils.ResultListBundle;
import com.gs.spider.service.AsyncGatherService;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.ResponseBody;

import java.io.IOException;

/**
 * AsyncGatherbaseController
 * 异步抓取器的Controller
 *
 * @author Gao Shen
 * @version 16/2/23
 */
public class AsyncGatherbaseController extends baseController {
    private AsyncGatherService asyncGatherService;
    private Logger LOG = LogManager.getLogger(AsyncGatherbaseController.class);

    public AsyncGatherbaseController(AsyncGatherService asyncGatherService) {
        this.asyncGatherService = asyncGatherService;
    }

    /**
     * 列出所有任务
     *
     * @return 0表示正在进行 1表示已经完成
     * @throws IOException
     */
    @RequestMapping(value = “listTasks“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultListBundle listTasks(@RequestParam(value = “containsExtraInfo“ required = false defaultValue = “false“) boolean containsExtraInfo) throws IOException {
        return asyncGatherService.getTaskList(containsExtraInfo);
    }

    /**
     * 根据id获取task
     *
     * @param taskId
     * @return
     * @throws IOException
     */
    @RequestMapping(value = “getTaskById“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getTaskById(String taskId @RequestParam(value = “containsExtraInfo“ required = false defaultValue = “true“) boolean containsExtraInfo) throws IOException {
        return asyncGatherService.getTaskById(taskId containsExtraInfo);
    }

    /**
     * 获取异步抓取长连接服务器端口号
     *
     * @return
     */
    @RequestMapping(value = “getLongConnectionPort“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getLongConnectionPort() throws IOException {
        return asyncGatherService.getLongConnectionPort();
    }

    /**
     * 获取当前task已经抓取的文章数
     *
     * @param taskId
     * @return
     * @throws IOException
     */
    @RequestMapping(value = “getTaskCount“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle getTaskCount(String taskId) throws IOException {
        return asyncGatherService.getTaskCount(taskId);
    }

    /**
     * 根据taskId删除任务
     *
     * @param taskId 任务ID
     * @return 成功返回OK!
     */
    @RequestMapping(value = “deleteTaskById“ method = RequestMethod.GET produces = “application/json“)
    @ResponseBody
    public ResultBundle deleteTaskById(String taskId

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85
     文件          24  2017-05-16 11:12  gsh199449-spider-a5f9f85.gitignore
     文件          34  2017-05-16 11:12  gsh199449-spider-a5f9f85.travis.yml
     文件       35141  2017-05-16 11:12  gsh199449-spider-a5f9f85LICENSE
     文件        1674  2017-05-16 11:12  gsh199449-spider-a5f9f85README.md
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85ajaxDownloader
     文件        8662  2017-05-16 11:12  gsh199449-spider-a5f9f85ajaxDownloaderphantomjs_fetcher.js
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85doc
     文件       12203  2017-05-16 11:12  gsh199449-spider-a5f9f85docREADME-en.md
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgs
     文件      192097  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsdomainList.png
     文件       30399  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsdynamic.png
     文件      209349  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgseditSpiderInfo.png
     文件       57069  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgshome.png
     文件       80330  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgs
eed.png
     文件      273752  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgssearch.png
     文件    15576616  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsshow.gif
     文件       64154  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsshowRelatedInfo.png
     文件      226173  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsshowWebpageById.png
     文件      184284  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsspiderList.png
     文件       99702  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgsspiderinfo.png
     文件      348633  2017-05-16 11:12  gsh199449-spider-a5f9f85docimgs estSpiderinfo.png
     目录           0  2017-05-16 11:12  gsh199449-spider-a5f9f85examples
     文件         921  2017-05-16 11:12  gsh199449-spider-a5f9f85examplesREADME.md
     文件        1239  2017-05-16 11:12  gsh199449-spider-a5f9f85examples
ews.163.com.json
     文件        1142  2017-05-16 11:12  gsh199449-spider-a5f9f85examples
ews.qq.com.json
     文件        1181  2017-05-16 11:12  gsh199449-spider-a5f9f85examples
ews.qq.com_time_autodetect.json
     文件        1270  2017-05-16 11:12  gsh199449-spider-a5f9f85examples
ews.sohu.com.json
     文件        8404  2017-05-16 11:12  gsh199449-spider-a5f9f85examplesphantomjs_fetcher.js
     文件        1205  2017-05-16 11:12  gsh199449-spider-a5f9f85exampleswww.chinanews.com.json
     文件        1273  2017-05-16 11:12  gsh199449-spider-a5f9f85exampleswww.oschina.net.json
............此处省略130个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)