目前爬虫框架有很多,他们之所以存在,必然存在各自的优势。现在我们爬虫使用到的框架有这些:Beautiful Soup、Scrapy、mechanize、selenium、cola、PySpider等。今天我们就来说说这些爬虫框架的优缺点。
Beautiful Soup
它的知名度应该是家喻户晓了,一些常规的爬虫,很容易上手。但是它的缺点就是不能够加载js。
Scrapy
它给人的感觉是一个很强大的爬虫框架,可以很好的满足简单的页面,例如知道url格式的情况。用该框架可以很容易就爬取到如亚马逊的商品信息数据。但是页面如果稍微复杂点,可能就无能为力了,如在微博的页面信息面前,这个框架就很难满足需求了。
mechanize
它的优点就是可以加载js。缺点就是该框架的接入文档资源非常的少。
selenium
这个框架是可以调用浏览器driver的,由该框架我们可以直接调用浏览器来实现一些操作,例如输入验证码。
cola
cola是一个分布式的爬虫框架,不过整个框架设计的有点糟糕,模块的耦合度高。
PySpider
它能够抓取、更新调度多站点的特定页面,会对页面进行结构优化信息提取,而且灵活可扩展,稳定可监控。