一个简单的python网路爬虫示例——爬取《后来的我们》影评
首先我们用百度搜索《后来的我们》影评,记录下此时的网址,如下:
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
右键当前页面,查看元素,我们可以发现在查看器中,所有的评论都是<p>来显示的,虽然后面的无关文字也有<p>来显示,但我们可以通过限制条件来只选出我们想要的评论。

接下来我们来选择网络,随便点击一个文件,在右边出现一个属性框,我们拉到最下面,记录下我们所用网页的User-Agent。
完成了所有准备工作,我们开始进行写代码。
为了完成我们的爬虫,我们需要导入两个库,一个是requests库,它用于向网页发送请求,具体用法详见linkhttps://www.cnblogs.com/xinz-study/p/9294452.html,另一个是bs4库中的BeautifulSoup类,用于获取网页的源码,具体用法详见linkhttps://www.jianshu.com/p/26a3632796dd。
完整代码如下:
# 需要调用的requests库和 bs4库中的BeautifulSoup工具 import requests from bs4 import BeautifulSoup num = 0 # 定义条数的初始值 # 定义一个变量url,为需要爬取数据我网页网址 url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P' # 获取这个网页的源代码,存放在req中,{ }中为不同浏览器的不同User-Agent属性,怎么获取前面已经介绍 req = requests.get(url,{ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'}) # 生成一个Beautifulsoup对象,用以后边的查找工作 soup = BeautifulSoup(req.text, 'html.parser') # 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中 xml
123456789101112131415161718相关知识
用Python爬虫获取网络园艺社区植物养护和种植技巧
用Python做兼职,轻松赚取零花钱,分享Python兼职经验
使用美汤从HTML中提取特定的标题
python玫瑰花代码简单
这个好玩!用Python识别花卉种类,并自动整理分类!
玫瑰花的python程序代码
Python实现识别花卉种类的示例代码
python 生成玫瑰花代码
python玫瑰花代码讲解
Python中的花——详解花的图形绘制
原文链接: 一个简单的python网路爬虫示例——爬取《后来的我们》影评 https://www.huajiangbk.com/newsview328308.html
| 上一篇: 魔芋是什么 | 下一篇: 花节日图片 |
推荐分享

- 1明日花キララ:明日花绮罗年度... 17787
- 2明日花キララ(明日花绮罗)经... 10200
- 3兰花叶子扭的是什么兰 8051
- 4君子兰什么品种最名贵 十大名... 6636
- 5十大致癌花卉排行榜,哪些花卉... 6344
- 6李晓明工笔牡丹(魏紫)《牡丹... 6149
- 7家庭养花知识大全 家庭养花有... 5594
- 8家庭养花风水知识 家庭养花“... 5327
- 9花圈挽联怎么写? 4973
- 10世界上最名贵的10种兰花图片... 4844




