8行代码学爬虫

爬虫 2020-07-17

8行代码学爬虫

2020-07-17

（ emm, 大神5分钟，小白1小时（小声皮(●’◡’●)/)

目标

爬取豆瓣电影-一周口碑排行榜

代码

import requests
from lxml import html

url = 'https://movie.douban.com/'
headers = {'Referer':'https://movie.douban.com/','User-Agent':'Mozilla/5.0 (Windows NT 10.0; xxx) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/xxx Safari/537.36'}
#headers要根据自己的浏览器来配置

page = requests.get(url, headers=headers)
tree = html.fromstring(page.text)
result = tree.xpath('//td[@class="title"]//a/text()')

#print(page.text)
print(result)

结果

1594921126087

爬到了豆瓣电影页面“一周口碑榜”

1595048198449

环境配置

Windows + python3.8

刚开始有一些需要导入的库，如果以前没有下载过，要先打开cmd下载

1 2	pip install requests pip install lxml

原理+步骤

爬虫要点：

爬虫的网址（douban.movie）
需要爬取的内容和数据
1
result = tree.xpath('//td[@class="title"]//a/text()')
这行也是关键的爬取代码

如何找到这部分？

打开需要爬取的网页，按 F12，打开开发者工具
点左上角小箭头，此时鼠标选中网页各个模块（右键-检查），调试代码会自动跳转到相应的地方，找到要爬的部分

看到这一行，和关键代码有很多相似的地方。原理如下：

‘//td[@class=”title”]//a/text()’

1）//td : 相当于指定大目录

2）[@class=”title”] : 指定小目录

3）//a : 最小的目录

4）/text() : 提取的数据

（就是按照网页的结构，一层层找到需要的爬取的数据所在的路径）