首页 分享 Python爬虫(一):环境配置

Python爬虫(一):环境配置

来源:花匠小妙招 时间:2024-12-16 14:18

最新推荐文章于 2024-11-06 17:50:57 发布

_天高云淡 于 2016-02-29 11:13:09 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

由于项目需要,最近开始学习和使用Python写web爬虫。要理解网络爬虫最好的例子就是使用最多的搜索引擎,网络爬虫是搜索引擎最重要的一部分。搜索引擎根据用户的输入关键字,使用一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列中并最终呈现给用户。

实际项目中,我们往往不需要爬取所有网站的源码,而只是对感兴趣的某个或某几个网站做定向爬取,爬取的内容也不仅仅是URL,而是根据具体的项目需求而定。

项目背景

根据用户关键字爬取www.pnas.org等6个文献搜索引擎的检索结果并记录文献标题、作者、时间、邮件和URL等信息,使用Windows桌面软件以列表的形式呈现符合检索关键字的条目。

方案选取

根据背景描述,至少存在两种可选择方案:

API,如果网站为用户提供了开放的API,那么事情变得简单很多,根据用户关键字调用相应的API就能获取数据库中文献相关信息 网络爬虫,如果网站没有提供API,那么只能通过爬虫的方式获取的想要的信息。

由于6个目标网站都没有提供相应的API,所以只能硬着头皮选择方案2。根据需求可以发现,项目涉及到两方面的技术:爬虫windows GUI。虽然C/C++,Java,Python,Ruby等等都能够写爬虫,但是从开发周期和开发成本的角度出发,Python有Scrapy这种强大的网络爬

相关知识

用Python爬虫获取网络园艺社区植物养护和种植技巧
Python的简单介绍(一)
基于Python爬虫的电商网站彩妆数据的分析与研究
用Python做兼职,轻松赚取零花钱,分享Python兼职经验
爬虫技术在搜索引擎优化(SEO)中的应用与实践
pytorch python=3.6环境安装
揭秘Python编程下的音乐排行榜:如何用代码解锁流行音乐趋势?
干货分享:Python数据分析工具
(开题)flask框架《花间故里》(程序+论文+python)
利用Python制作旋转花灯,祝大家元宵节快乐

网址: Python爬虫(一):环境配置 https://www.huajiangbk.com/newsview1125747.html

所属分类:花卉
上一篇: 属龙的人不能摆放龙龟?生肖与龙龟
下一篇: Nvidia Jetson AG

推荐分享