Java爬虫汽车之家图片
本人公司项目中需要汽车图片作为人工智能图片识别的训练,本人应项目组的需要,使用Java爬虫,爬了汽车之家12万张汽车之家汽车图片。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-11-25 17:06 CarCarCar
文件 250231 2016-11-25 16:51 CarCarCar7.1allCarImageUrl.txt
文件 249915 2016-11-25 16:52 CarCarCar7.2allCarImageUrl.txt
文件 249953 2016-11-25 16:53 CarCarCar7.3allCarImageUrl.txt
文件 251291 2016-11-25 16:53 CarCarCar7.4allCarImageUrl.txt
文件 224178 2016-11-25 16:54 CarCarCar7.5allCarImageUrl.txt
目录 0 2016-11-25 16:37 CarCarCarMyCarImage
文件 943 2016-11-22 10:34 CarCarCarMyCarImage.classpath
文件 386 2016-11-22 10:31 CarCarCarMyCarImage.project
目录 0 2016-11-25 16:37 CarCarCarMyCarImage.settings
文件 598 2016-11-22 10:31 CarCarCarMyCarImage.settingsorg.eclipse.jdt.core.prefs
目录 0 2016-11-25 16:37 CarCarCarMyCarImagein
目录 0 2016-11-25 16:37 CarCarCarMyCarImageincarImage
文件 11957 2016-11-25 16:35 CarCarCarMyCarImageincarImageCar.class
目录 0 2016-11-25 16:37 CarCarCarMyCarImagelib
文件 232019 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-beanutils-1.8.3.jar
文件 263965 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-codec-1.9.jar
文件 575389 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-collections-3.2.1.jar
文件 284220 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-lang-2.6.jar
文件 61829 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-logging-1.2.jar
文件 86487 2016-11-22 10:34 CarCarCarMyCarImagelibezmorph-1.0.6.jar
文件 732765 2016-11-22 10:34 CarCarCarMyCarImagelibhttpclient-4.5.1.jar
文件 326594 2016-11-22 10:34 CarCarCarMyCarImagelibhttpcore-4.4.3.jar
文件 159123 2016-11-22 10:34 CarCarCarMyCarImagelibjson-lib-2.4-jdk15.jar
文件 300844 2016-11-22 10:33 CarCarCarMyCarImagelibjsoup-1.8.1.jar
目录 0 2016-11-25 16:37 CarCarCarMyCarImagesrc
目录 0 2016-11-25 16:37 CarCarCarMyCarImagesrccarImage
文件 11409 2016-11-25 16:35 CarCarCarMyCarImagesrccarImageCar.java
文件 13107 2016-11-25 17:06 CarCarCarcar.docx
package carImage;
import java.io.PrintWriter;
import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Car {
public static int imgCount = 0;
public static void main(String[] args){
//getStr(); //获取下载图片所需路径s
long startTime=System.currentTimeMillis();
List urls=readUrls(); //读取txt中路径
HashMap hm = new HashMap();
Car wc = new Car();
for(String url:urls){
List imgUrls=new ArrayList();
imgCount=0;
try {
do{
String urlImage=“http://car.autohome.com.cn/“+url+“#pvareaid=2042264“;
Document doc = null;
try {
doc = Jsoup.connect(urlImage).timeout(100000).get();
} catch (IOException e1) {
e1.printStackTrace();
}
hm = wc.getFromYahoo(urlImage);
String str=hm.get(“title“);
String[] strs = str.split(“ “);
String strz=strs[0];
File carFolder=new File(“D:/img/carphoto/“+strz); //新建一个文件夹
carFolder.mkdirs();
Element body = doc.body();
Elements es=body.select(“img“);
Pattern p = Pattern.compile(“^(http)?(://)?(\w+(-\w+)*(\d+))(\.(\w+(-\w+)*))(\.(\w+(-\w+)*))“
+ “(/(\w+(-\w+)*))*(/(\d+)*)*(/(\w+(-\w+)*(\d+)*))*(/(\w+(\_+)(\d+)*(-\w+)*))*“
+ “(/(\w+(\_+)(\d+)*))*(\.(\w+(-\w+)*))$“Pattern.CASE_INSENSITIVE );
for (Iterator it = es.iterator(); it.hasNext();) {
Element e = (Element) it.next();
String objUrl= e.attr(“src“);
Matcher m = p.matcher(objUrl);
if(m.find() && !imgUrls.contains(objUrl)){ //是否找到匹配的路径并且该路径在不存在集合中
downPic(objUrlurlurlImage); //下载图片
imgCount++;
imgUrls.add(objUrl); //把路径加入到集合中
}else{
System.out.println(“匹配不到合适的路径“);
}
}
}while(false);
} catch (Exception e1) {
e1.printStackTrace();
}
if(imgCount>=50){
System.out.println(“获取图片“+imgCount+“等待3秒“);
break;
}
try {
Thread.sleep(3000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
System.out.println(“总耗时:“ + ((System.currentTimeMillis() - startTime)/60000));
}
/*读取一个网页全部内容*/
public String getOneHtml( String htmlurl) throws IOException {
URL url;
String temp;
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-11-25 17:06 CarCarCar
文件 250231 2016-11-25 16:51 CarCarCar7.1allCarImageUrl.txt
文件 249915 2016-11-25 16:52 CarCarCar7.2allCarImageUrl.txt
文件 249953 2016-11-25 16:53 CarCarCar7.3allCarImageUrl.txt
文件 251291 2016-11-25 16:53 CarCarCar7.4allCarImageUrl.txt
文件 224178 2016-11-25 16:54 CarCarCar7.5allCarImageUrl.txt
目录 0 2016-11-25 16:37 CarCarCarMyCarImage
文件 943 2016-11-22 10:34 CarCarCarMyCarImage.classpath
文件 386 2016-11-22 10:31 CarCarCarMyCarImage.project
目录 0 2016-11-25 16:37 CarCarCarMyCarImage.settings
文件 598 2016-11-22 10:31 CarCarCarMyCarImage.settingsorg.eclipse.jdt.core.prefs
目录 0 2016-11-25 16:37 CarCarCarMyCarImagein
目录 0 2016-11-25 16:37 CarCarCarMyCarImageincarImage
文件 11957 2016-11-25 16:35 CarCarCarMyCarImageincarImageCar.class
目录 0 2016-11-25 16:37 CarCarCarMyCarImagelib
文件 232019 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-beanutils-1.8.3.jar
文件 263965 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-codec-1.9.jar
文件 575389 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-collections-3.2.1.jar
文件 284220 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-lang-2.6.jar
文件 61829 2016-11-22 10:34 CarCarCarMyCarImagelibcommons-logging-1.2.jar
文件 86487 2016-11-22 10:34 CarCarCarMyCarImagelibezmorph-1.0.6.jar
文件 732765 2016-11-22 10:34 CarCarCarMyCarImagelibhttpclient-4.5.1.jar
文件 326594 2016-11-22 10:34 CarCarCarMyCarImagelibhttpcore-4.4.3.jar
文件 159123 2016-11-22 10:34 CarCarCarMyCarImagelibjson-lib-2.4-jdk15.jar
文件 300844 2016-11-22 10:33 CarCarCarMyCarImagelibjsoup-1.8.1.jar
目录 0 2016-11-25 16:37 CarCarCarMyCarImagesrc
目录 0 2016-11-25 16:37 CarCarCarMyCarImagesrccarImage
文件 11409 2016-11-25 16:35 CarCarCarMyCarImagesrccarImageCar.java
文件 13107 2016-11-25 17:06 CarCarCarcar.docx
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)