从零开始学Python网络爬虫所有源代码及书本PPT


从零开始学Python网络爬虫(所有源代码及书本PPT)
资源截图
代码片段和文件信息
import requests
from lxml import etree
import csv
import json

# address = ‘上海‘
# par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
# base = ‘http://restapi.amap.com/v3/geocode/geo‘
# response = requests.get(base par)
# print(response.text)

fp = open(‘C://Users/LP/Desktop/map.csv‘‘wt‘newline=‘‘encoding=‘utf-8‘)
writer = csv.writer(fp)
writer.writerow((‘address‘‘longitude‘‘latitude‘))

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/53.0.2785.143 Safari/537.36‘
}

def get_user_url(url):
    url_part = ‘http://www.qiushibaike.com‘
    res = requests.get(urlheaders=headers)
    selector = etree.HTML(res.text)
    url_infos = selector.xpath(‘//div[@class=“article block untagged mb15“]‘)
    for url_info in url_infos:
        user_part_urls = url_info.xpath(‘div[1]/a[1]/@href‘)
        if len(user_part_urls) == 1:
            user_part_url = user_part_urls[0]
            get_user_address(url_part + user_part_url)
        else:
            pass

def get_user_address(url):
    res = requests.get(url headers=headers)
    selector = etree.HTML(res.text)
    if selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘):
        address = selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘)
        get_geo(address[0].split(‘ · ‘)[0])
    else:
        pass

def get_geo(address):
    par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
    api = ‘http://restapi.amap.com/v3/geocode/geo‘
    res = requests.get(api par)
    json_data = json.loads(res.text)
    try:
        geo = json_data[‘geocodes‘][0][‘location‘]
        longitude = geo.split(‘‘)[0]
        latitude = geo.split(‘‘)[1]
        writer.writerow((addresslongitudelatitude))
    except IndexError:
        pass

if __name__ == ‘__main__‘:
    urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1 36)]
    for url in urls:
        get_user_url(url)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-03-15 16:40  从零开始学Python网络爬虫教学PPT
     文件         165  2018-03-15 16:40  从零开始学Python网络爬虫教学PPT~$第1章  Python零基础语法入门.pptx
     文件     2348566  2018-03-14 09:48  从零开始学Python网络爬虫教学PPT第10章  表单交互与模拟登录.pptx
     文件     1392806  2018-03-14 10:21  从零开始学Python网络爬虫教学PPT第11章  Selenium模拟浏览器.pptx
     文件     2183065  2018-03-14 11:14  从零开始学Python网络爬虫教学PPT第12章  Scrapy爬虫框架.pptx
     文件      424950  2018-03-13 09:01  从零开始学Python网络爬虫教学PPT第1章  Python零基础语法入门.pptx
     文件      489050  2018-03-13 09:34  从零开始学Python网络爬虫教学PPT第2章  爬虫原理和网页构造.pptx
     文件     1184764  2018-03-13 10:31  从零开始学Python网络爬虫教学PPT第3章  我的第一个爬虫程序.pptx
     文件      677357  2018-03-13 11:20  从零开始学Python网络爬虫教学PPT第4章  正则表达式.pptx
     文件     1100467  2018-03-13 14:55  从零开始学Python网络爬虫教学PPT第5章  Lxml库与Xpath语法.pptx
     文件     1021454  2018-03-13 15:25  从零开始学Python网络爬虫教学PPT第6章  使用API.pptx
     文件      362889  2018-03-13 16:04  从零开始学Python网络爬虫教学PPT第7章  数据库存储.pptx
     文件      925176  2018-03-13 16:22  从零开始学Python网络爬虫教学PPT第8章  多进程爬虫.pptx
     文件     1841672  2018-03-13 17:01  从零开始学Python网络爬虫教学PPT第9章  异步加载.pptx
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码.idea
     文件         641  2017-04-26 10:41  从零开始学Python网络爬虫源代码.ideamisc.xml
     文件         276  2017-02-25 20:08  从零开始学Python网络爬虫源代码.ideamodules.xml
     文件       49196  2017-05-29 16:23  从零开始学Python网络爬虫源代码.ideaworkspace.xml
     文件         497  2017-04-26 10:41  从零开始学Python网络爬虫源代码.idea写书代码.iml
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码58project
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码58project\__pycache__
     文件        2611  2017-04-01 16:31  从零开始学Python网络爬虫源代码58project\__pycache__channel_extract.cpython-35.pyc
     文件        1880  2017-04-01 16:31  从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-35.pyc
     文件        1596  2017-02-09 15:35  从零开始学Python网络爬虫源代码58project\__pycache__page_spider.cpython-36.pyc
     文件        2413  2017-04-01 15:38  从零开始学Python网络爬虫源代码58projectchannel_extract.py
     文件         152  2017-02-03 20:10  从零开始学Python网络爬虫源代码58projectcounts.py
     文件         753  2017-04-01 16:28  从零开始学Python网络爬虫源代码58projectmain.py
     文件        2060  2017-04-01 15:04  从零开始学Python网络爬虫源代码58projectpage_spider.py
     文件        2035  2017-03-22 17:24  从零开始学Python网络爬虫源代码aidumap.py
     文件        2520  2017-03-16 16:41  从零开始学Python网络爬虫源代码compare.py
............此处省略134个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)