基于java实现网络爬虫


基于java实现的java爬虫,是我学习java来练练手的,java基础入门的学生可以考虑参考一下
资源截图
代码片段和文件信息
package 网络爬虫;

import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class GetData {
public static void main(String[] args)
{
test1();
}
public static void test1()
{
try 
{
URL url = new URL(“http://www.qiushibaike.com/text/page/2/“);
URLConnection con = url.openConnection();
//补充:HttpClient封装了很多类 
Document document = Jsoup.connect(“http://www.qiushibaike.com/text/page/2/“).get();

Elements contents = document.select(“div.content-text“);

for(Element content : contents)
{
System.out.println(content.text());
}
} catch (MalformedURLException e) 
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
}
}


}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统
     文件         397  2017-08-12 10:12  暑假任务—爬虫系统.classpath
     文件         403  2017-07-12 16:14  暑假任务—爬虫系统.project
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统.settings
     文件         598  2017-07-12 16:14  暑假任务—爬虫系统.settingsorg.eclipse.jdt.core.prefs
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统in
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统in网络爬虫
     文件        1882  2017-09-10 00:09  暑假任务—爬虫系统in网络爬虫GetData.class
     文件        3609  2017-09-10 00:09  暑假任务—爬虫系统in网络爬虫MyNewTopic.class
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统in获取工作资源
     文件        4676  2017-09-10 00:09  暑假任务—爬虫系统in获取工作资源DataDownUtil.class
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统in获取百度logo
     文件        2934  2017-09-10 00:09  暑假任务—爬虫系统in获取百度logoGetLogo.class
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统in获取链接资源
     文件        2701  2017-09-10 00:09  暑假任务—爬虫系统in获取链接资源WebSpider.class
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统lib
     文件      300844  2017-07-11 15:38  暑假任务—爬虫系统libjsoup-1.8.1.jar
     文件        4302  2017-07-15 11:24  暑假任务—爬虫系统lib新建文本文档.txt
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统src
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统src网络爬虫
     文件         946  2017-07-15 15:38  暑假任务—爬虫系统src网络爬虫GetData.java
     文件        2387  2017-07-13 17:31  暑假任务—爬虫系统src网络爬虫MyNewTopic.java
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统src获取工作资源
     文件        3061  2017-07-19 01:07  暑假任务—爬虫系统src获取工作资源DataDownUtil.java
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统src获取百度logo
     文件        1671  2017-07-19 01:07  暑假任务—爬虫系统src获取百度logoGetLogo.java
     目录           0  2018-06-02 10:08  暑假任务—爬虫系统src获取链接资源
     文件        1695  2017-07-18 15:15  暑假任务—爬虫系统src获取链接资源WebSpider.java
     文件       73306  2017-07-13 21:39  暑假任务—爬虫系统url.txt
     目录           0  2018-06-02 10:08  爬虫
     目录           0  2018-06-02 10:08  爬虫2
............此处省略90个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)