GatherPlatform数据抓取平台
标签:
•
文件类型: .zip
•
文件大小: 14.67MB
•
下载次数: 1
•
Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85
文件 24 2017-05-16 11:12 gsh199449-spider-a5f9f85.gitignore
文件 34 2017-05-16 11:12 gsh199449-spider-a5f9f85.travis.yml
文件 35141 2017-05-16 11:12 gsh199449-spider-a5f9f85LICENSE
文件 1674 2017-05-16 11:12 gsh199449-spider-a5f9f85README.md
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85ajaxDownloader
文件 8662 2017-05-16 11:12 gsh199449-spider-a5f9f85ajaxDownloaderphantomjs_fetcher.js
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85doc
文件 12203 2017-05-16 11:12 gsh199449-spider-a5f9f85docREADME-en.md
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs
文件 192097 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsdomainList.png
文件 30399 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsdynamic.png
文件 209349 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgseditSpiderInfo.png
文件 57069 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgshome.png
文件 80330 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs
eed.png
文件 273752 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgssearch.png
文件 15576616 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshow.gif
文件 64154 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshowRelatedInfo.png
文件 226173 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshowWebpageById.png
文件 184284 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsspiderList.png
文件 99702 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsspiderinfo.png
文件 348633 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs estSpiderinfo.png
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
文件 921 2017-05-16 11:12 gsh199449-spider-a5f9f85examplesREADME.md
文件 1239 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.163.com.json
文件 1142 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.qq.com.json
文件 1181 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.qq.com_time_autodetect.json
文件 1270 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.sohu.com.json
文件 8404 2017-05-16 11:12 gsh199449-spider-a5f9f85examplesphantomjs_fetcher.js
文件 1205 2017-05-16 11:12 gsh199449-spider-a5f9f85exampleswww.chinanews.com.json
文件 1273 2017-05-16 11:12 gsh199449-spider-a5f9f85exampleswww.oschina.net.json
............此处省略130个文件信息
package com.gs.spider.controller;
import com.gs.spider.model.async.State;
import com.gs.spider.model.async.Task;
import com.gs.spider.model.utils.ResultBundle;
import com.gs.spider.model.utils.ResultListBundle;
import com.gs.spider.service.AsyncGatherService;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.ResponseBody;
import java.io.IOException;
/**
* AsyncGatherbaseController
* 异步抓取器的Controller
*
* @author Gao Shen
* @version 16/2/23
*/
public class AsyncGatherbaseController extends baseController {
private AsyncGatherService asyncGatherService;
private Logger LOG = LogManager.getLogger(AsyncGatherbaseController.class);
public AsyncGatherbaseController(AsyncGatherService asyncGatherService) {
this.asyncGatherService = asyncGatherService;
}
/**
* 列出所有任务
*
* @return 0表示正在进行 1表示已经完成
* @throws IOException
*/
@RequestMapping(value = “listTasks“ method = RequestMethod.GET produces = “application/json“)
@ResponseBody
public ResultListBundle listTasks(@RequestParam(value = “containsExtraInfo“ required = false defaultValue = “false“) boolean containsExtraInfo) throws IOException {
return asyncGatherService.getTaskList(containsExtraInfo);
}
/**
* 根据id获取task
*
* @param taskId
* @return
* @throws IOException
*/
@RequestMapping(value = “getTaskById“ method = RequestMethod.GET produces = “application/json“)
@ResponseBody
public ResultBundle getTaskById(String taskId @RequestParam(value = “containsExtraInfo“ required = false defaultValue = “true“) boolean containsExtraInfo) throws IOException {
return asyncGatherService.getTaskById(taskId containsExtraInfo);
}
/**
* 获取异步抓取长连接服务器端口号
*
* @return
*/
@RequestMapping(value = “getLongConnectionPort“ method = RequestMethod.GET produces = “application/json“)
@ResponseBody
public ResultBundle getLongConnectionPort() throws IOException {
return asyncGatherService.getLongConnectionPort();
}
/**
* 获取当前task已经抓取的文章数
*
* @param taskId
* @return
* @throws IOException
*/
@RequestMapping(value = “getTaskCount“ method = RequestMethod.GET produces = “application/json“)
@ResponseBody
public ResultBundle getTaskCount(String taskId) throws IOException {
return asyncGatherService.getTaskCount(taskId);
}
/**
* 根据taskId删除任务
*
* @param taskId 任务ID
* @return 成功返回OK!
*/
@RequestMapping(value = “deleteTaskById“ method = RequestMethod.GET produces = “application/json“)
@ResponseBody
public ResultBundle deleteTaskById(String taskId
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85
文件 24 2017-05-16 11:12 gsh199449-spider-a5f9f85.gitignore
文件 34 2017-05-16 11:12 gsh199449-spider-a5f9f85.travis.yml
文件 35141 2017-05-16 11:12 gsh199449-spider-a5f9f85LICENSE
文件 1674 2017-05-16 11:12 gsh199449-spider-a5f9f85README.md
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85ajaxDownloader
文件 8662 2017-05-16 11:12 gsh199449-spider-a5f9f85ajaxDownloaderphantomjs_fetcher.js
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85doc
文件 12203 2017-05-16 11:12 gsh199449-spider-a5f9f85docREADME-en.md
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs
文件 192097 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsdomainList.png
文件 30399 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsdynamic.png
文件 209349 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgseditSpiderInfo.png
文件 57069 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgshome.png
文件 80330 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs
eed.png
文件 273752 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgssearch.png
文件 15576616 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshow.gif
文件 64154 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshowRelatedInfo.png
文件 226173 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsshowWebpageById.png
文件 184284 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsspiderList.png
文件 99702 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgsspiderinfo.png
文件 348633 2017-05-16 11:12 gsh199449-spider-a5f9f85docimgs estSpiderinfo.png
目录 0 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
文件 921 2017-05-16 11:12 gsh199449-spider-a5f9f85examplesREADME.md
文件 1239 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.163.com.json
文件 1142 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.qq.com.json
文件 1181 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.qq.com_time_autodetect.json
文件 1270 2017-05-16 11:12 gsh199449-spider-a5f9f85examples
ews.sohu.com.json
文件 8404 2017-05-16 11:12 gsh199449-spider-a5f9f85examplesphantomjs_fetcher.js
文件 1205 2017-05-16 11:12 gsh199449-spider-a5f9f85exampleswww.chinanews.com.json
文件 1273 2017-05-16 11:12 gsh199449-spider-a5f9f85exampleswww.oschina.net.json
............此处省略130个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)