Java爬虫汽车之家图片


本人公司项目中需要汽车图片作为人工智能图片识别的训练,本人应项目组的需要,使用Java爬虫,爬了汽车之家12万张汽车之家汽车图片。
资源截图
代码片段和文件信息
package carImage;

import java.io.PrintWriter;
import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Car {
public static int imgCount = 0;
public static void main(String[] args){
//getStr(); //获取下载图片所需路径s
long startTime=System.currentTimeMillis();
List urls=readUrls(); //读取txt中路径
HashMap hm = new HashMap();
Car wc = new Car();
for(String url:urls){
List imgUrls=new ArrayList();
imgCount=0;
try {
do{
String urlImage=“http://car.autohome.com.cn/“+url+“#pvareaid=2042264“;
Document doc = null;
try {
doc = Jsoup.connect(urlImage).timeout(100000).get();
} catch (IOException e1) {
e1.printStackTrace();
}
        hm = wc.getFromYahoo(urlImage);
        String str=hm.get(“title“);
        String[] strs = str.split(“ “);
        String strz=strs[0];
        File carFolder=new File(“D:/img/carphoto/“+strz); //新建一个文件夹
carFolder.mkdirs();
Element body = doc.body();
Elements es=body.select(“img“);
Pattern p = Pattern.compile(“^(http)?(://)?(\w+(-\w+)*(\d+))(\.(\w+(-\w+)*))(\.(\w+(-\w+)*))“
+ “(/(\w+(-\w+)*))*(/(\d+)*)*(/(\w+(-\w+)*(\d+)*))*(/(\w+(\_+)(\d+)*(-\w+)*))*“
+ “(/(\w+(\_+)(\d+)*))*(\.(\w+(-\w+)*))$“Pattern.CASE_INSENSITIVE ); 
for (Iterator it = es.iterator(); it.hasNext();) {
Element e = (Element) it.next();
String objUrl= e.attr(“src“); 
Matcher m = p.matcher(objUrl);   
if(m.find() && !imgUrls.contains(objUrl)){ //是否找到匹配的路径并且该路径在不存在集合中
downPic(objUrlurlurlImage); //下载图片
imgCount++;
imgUrls.add(objUrl); //把路径加入到集合中
}else{
System.out.println(“匹配不到合适的路径“);

}
}
}while(false);
} catch (Exception e1) {
e1.printStackTrace();
}
if(imgCount>=50){
System.out.println(“获取图片“+imgCount+“等待3秒“);
break;
}
try {
Thread.sleep(3000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
System.out.println(“总耗时:“ + ((System.currentTimeMillis() - startTime)/60000));
}

    /*读取一个网页全部内容*/
    public String getOneHtml( String htmlurl) throws IOException {
        URL url;
        String temp;
   

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-11-25 17:06  CarCarCar
     文件      250231  2016-11-25 16:51  CarCarCar7.1allCarImageUrl.txt
     文件      249915  2016-11-25 16:52  CarCarCar7.2allCarImageUrl.txt
     文件      249953  2016-11-25 16:53  CarCarCar7.3allCarImageUrl.txt
     文件      251291  2016-11-25 16:53  CarCarCar7.4allCarImageUrl.txt
     文件      224178  2016-11-25 16:54  CarCarCar7.5allCarImageUrl.txt
     目录           0  2016-11-25 16:37  CarCarCarMyCarImage
     文件         943  2016-11-22 10:34  CarCarCarMyCarImage.classpath
     文件         386  2016-11-22 10:31  CarCarCarMyCarImage.project
     目录           0  2016-11-25 16:37  CarCarCarMyCarImage.settings
     文件         598  2016-11-22 10:31  CarCarCarMyCarImage.settingsorg.eclipse.jdt.core.prefs
     目录           0  2016-11-25 16:37  CarCarCarMyCarImagein
     目录           0  2016-11-25 16:37  CarCarCarMyCarImageincarImage
     文件       11957  2016-11-25 16:35  CarCarCarMyCarImageincarImageCar.class
     目录           0  2016-11-25 16:37  CarCarCarMyCarImagelib
     文件      232019  2016-11-22 10:34  CarCarCarMyCarImagelibcommons-beanutils-1.8.3.jar
     文件      263965  2016-11-22 10:34  CarCarCarMyCarImagelibcommons-codec-1.9.jar
     文件      575389  2016-11-22 10:34  CarCarCarMyCarImagelibcommons-collections-3.2.1.jar
     文件      284220  2016-11-22 10:34  CarCarCarMyCarImagelibcommons-lang-2.6.jar
     文件       61829  2016-11-22 10:34  CarCarCarMyCarImagelibcommons-logging-1.2.jar
     文件       86487  2016-11-22 10:34  CarCarCarMyCarImagelibezmorph-1.0.6.jar
     文件      732765  2016-11-22 10:34  CarCarCarMyCarImagelibhttpclient-4.5.1.jar
     文件      326594  2016-11-22 10:34  CarCarCarMyCarImagelibhttpcore-4.4.3.jar
     文件      159123  2016-11-22 10:34  CarCarCarMyCarImagelibjson-lib-2.4-jdk15.jar
     文件      300844  2016-11-22 10:33  CarCarCarMyCarImagelibjsoup-1.8.1.jar
     目录           0  2016-11-25 16:37  CarCarCarMyCarImagesrc
     目录           0  2016-11-25 16:37  CarCarCarMyCarImagesrccarImage
     文件       11409  2016-11-25 16:35  CarCarCarMyCarImagesrccarImageCar.java
     文件       13107  2016-11-25 17:06  CarCarCarcar.docx

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)