从零开始学Python网络爬虫(所有源代码及书本PPT)
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT
文件 165 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT~$第1章 Python零基础语法入门.pptx
文件 2348566 2018-03-14 09:48 从零开始学Python网络爬虫教学PPT第10章 表单交互与模拟登录.pptx
文件 1392806 2018-03-14 10:21 从零开始学Python网络爬虫教学PPT第11章 Selenium模拟浏览器.pptx
文件 2183065 2018-03-14 11:14 从零开始学Python网络爬虫教学PPT第12章 Scrapy爬虫框架.pptx
文件 424950 2018-03-13 09:01 从零开始学Python网络爬虫教学PPT第1章 Python零基础语法入门.pptx
文件 489050 2018-03-13 09:34 从零开始学Python网络爬虫教学PPT第2章 爬虫原理和网页构造.pptx
文件 1184764 2018-03-13 10:31 从零开始学Python网络爬虫教学PPT第3章 我的第一个爬虫程序.pptx
文件 677357 2018-03-13 11:20 从零开始学Python网络爬虫教学PPT第4章 正则表达式.pptx
文件 1100467 2018-03-13 14:55 从零开始学Python网络爬虫教学PPT第5章 Lxml库与Xpath语法.pptx
文件 1021454 2018-03-13 15:25 从零开始学Python网络爬虫教学PPT第6章 使用API.pptx
文件 362889 2018-03-13 16:04 从零开始学Python网络爬虫教学PPT第7章 数据库存储.pptx
文件 925176 2018-03-13 16:22 从零开始学Python网络爬虫教学PPT第8章 多进程爬虫.pptx
文件 1841672 2018-03-13 17:01 从零开始学Python网络爬虫教学PPT第9章 异步加载.pptx
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码.idea
文件 641 2017-04-26 10:41 从零开始学Python网络爬虫源代码.ideamisc.xml
文件 276 2017-02-25 20:08 从零开始学Python网络爬虫源代码.ideamodules.xml
文件 49196 2017-05-29 16:23 从零开始学Python网络爬虫源代码.ideaworkspace.xml
文件 497 2017-04-26 10:41 从零开始学Python网络爬虫源代码.idea写书代码.iml
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码58project
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码58project\__pycache__
文件 2611 2017-04-01 16:31 从零开始学Python网络爬虫源代码58project\__pycache__channel_extract.cpython-35.pyc
文件 1880 2017-04-01 16:31 从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-35.pyc
文件 1596 2017-02-09 15:35 从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-36.pyc
文件 2413 2017-04-01 15:38 从零开始学Python网络爬虫源代码58projectchannel_extract.py
文件 152 2017-02-03 20:10 从零开始学Python网络爬虫源代码58projectcounts.py
文件 753 2017-04-01 16:28 从零开始学Python网络爬虫源代码58projectmain.py
文件 2060 2017-04-01 15:04 从零开始学Python网络爬虫源代码58projectpage_spider.py
文件 2035 2017-03-22 17:24 从零开始学Python网络爬虫源代码aidumap.py
文件 2520 2017-03-16 16:41 从零开始学Python网络爬虫源代码compare.py
............此处省略134个文件信息
import requests
from lxml import etree
import csv
import json
# address = ‘上海‘
# par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
# base = ‘http://restapi.amap.com/v3/geocode/geo‘
# response = requests.get(base par)
# print(response.text)
fp = open(‘C://Users/LP/Desktop/map.csv‘‘wt‘newline=‘‘encoding=‘utf-8‘)
writer = csv.writer(fp)
writer.writerow((‘address‘‘longitude‘‘latitude‘))
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/53.0.2785.143 Safari/537.36‘
}
def get_user_url(url):
url_part = ‘http://www.qiushibaike.com‘
res = requests.get(urlheaders=headers)
selector = etree.HTML(res.text)
url_infos = selector.xpath(‘//div[@class=“article block untagged mb15“]‘)
for url_info in url_infos:
user_part_urls = url_info.xpath(‘div[1]/a[1]/@href‘)
if len(user_part_urls) == 1:
user_part_url = user_part_urls[0]
get_user_address(url_part + user_part_url)
else:
pass
def get_user_address(url):
res = requests.get(url headers=headers)
selector = etree.HTML(res.text)
if selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘):
address = selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘)
get_geo(address[0].split(‘ · ‘)[0])
else:
pass
def get_geo(address):
par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
api = ‘http://restapi.amap.com/v3/geocode/geo‘
res = requests.get(api par)
json_data = json.loads(res.text)
try:
geo = json_data[‘geocodes‘][0][‘location‘]
longitude = geo.split(‘‘)[0]
latitude = geo.split(‘‘)[1]
writer.writerow((addresslongitudelatitude))
except IndexError:
pass
if __name__ == ‘__main__‘:
urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1 36)]
for url in urls:
get_user_url(url)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT
文件 165 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT~$第1章 Python零基础语法入门.pptx
文件 2348566 2018-03-14 09:48 从零开始学Python网络爬虫教学PPT第10章 表单交互与模拟登录.pptx
文件 1392806 2018-03-14 10:21 从零开始学Python网络爬虫教学PPT第11章 Selenium模拟浏览器.pptx
文件 2183065 2018-03-14 11:14 从零开始学Python网络爬虫教学PPT第12章 Scrapy爬虫框架.pptx
文件 424950 2018-03-13 09:01 从零开始学Python网络爬虫教学PPT第1章 Python零基础语法入门.pptx
文件 489050 2018-03-13 09:34 从零开始学Python网络爬虫教学PPT第2章 爬虫原理和网页构造.pptx
文件 1184764 2018-03-13 10:31 从零开始学Python网络爬虫教学PPT第3章 我的第一个爬虫程序.pptx
文件 677357 2018-03-13 11:20 从零开始学Python网络爬虫教学PPT第4章 正则表达式.pptx
文件 1100467 2018-03-13 14:55 从零开始学Python网络爬虫教学PPT第5章 Lxm
文件 1021454 2018-03-13 15:25 从零开始学Python网络爬虫教学PPT第6章 使用API.pptx
文件 362889 2018-03-13 16:04 从零开始学Python网络爬虫教学PPT第7章 数据库存储.pptx
文件 925176 2018-03-13 16:22 从零开始学Python网络爬虫教学PPT第8章 多进程爬虫.pptx
文件 1841672 2018-03-13 17:01 从零开始学Python网络爬虫教学PPT第9章 异步加载.pptx
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码.idea
文件 641 2017-04-26 10:41 从零开始学Python网络爬虫源代码.ideamisc.xm
文件 276 2017-02-25 20:08 从零开始学Python网络爬虫源代码.ideamodules.xm
文件 49196 2017-05-29 16:23 从零开始学Python网络爬虫源代码.ideaworkspace.xm
文件 497 2017-04-26 10:41 从零开始学Python网络爬虫源代码.idea写书代码.iml
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码58project
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码58project\__pycache__
文件 2611 2017-04-01 16:31 从零开始学Python网络爬虫源代码58project\__pycache__channel_extract.cpython-35.pyc
文件 1880 2017-04-01 16:31 从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-35.pyc
文件 1596 2017-02-09 15:35 从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-36.pyc
文件 2413 2017-04-01 15:38 从零开始学Python网络爬虫源代码58projectchannel_extract.py
文件 152 2017-02-03 20:10 从零开始学Python网络爬虫源代码58projectcounts.py
文件 753 2017-04-01 16:28 从零开始学Python网络爬虫源代码58projectmain.py
文件 2060 2017-04-01 15:04 从零开始学Python网络爬虫源代码58projectpage_spider.py
文件 2035 2017-03-22 17:24 从零开始学Python网络爬虫源代码aidumap.py
文件 2520 2017-03-16 16:41 从零开始学Python网络爬虫源代码compare.py
............此处省略134个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)