网站logo
×

首页 > 最新资讯 > 爬虫神器pyppeteer

爬虫神器pyppeteer

发布时间 2020-06-28

selenium之前呢有文章提到过,想必大家都有一定的了解,它虽然很好用,但是缺点也比较明显,尤其是需要经常更新对应的驱动。最近呢小编新发现一款web自动化测试工具pyppeteer,它虽然比较单一,但在安装配置和运行效率方面比selenium要好很多。
pyppeteer是puppeteer的Python版本,puppeteer是谷歌基于node.js开发的一个工具,它可以使我们通过JavaScript来控制Chrome执行一些操作,功能非常强大,下面简单跟大家讲解一下pyppeteer的安装使用。
1、安装
pyppeteer采用了async机制,所以必须使用Python3.5及以上版本,安装步骤如下
pip install pyppeteer
使用时直接导入
import pyppeteer
2、使用

我们使用豆瓣电影排行榜https://movie.douban.com/chart来作为测试
 pyppeteer代码如下:
import asyncio
from pyppeteer import launch
from lxml import etree

async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('https://movie.douban.com/chart')
await page.waitForXPath('//table//a[@title]')
doc = etree.HTML(await page.content())
names = [element.attrib['title'] for element in doc.xpath('//table//a[@title]')]
print('Names: ', names)
await browser.close()

asyncio.get_event_loop().run_until_complete(main())
运行结果如下:
Names:['想哭的我带上来猫的面具','午夜0时的吻','侵入者','默片解说员']
代码的大致意思了懂点程序的这里应该都看得懂,我就不多说了。通过上面的这个示例,我们看到pyppeteer比selenium要简洁的多,而且环境配置也方便,直接自动帮我们实现了环境配置。本来还有一些详细的讲解,由于篇幅长度限制,本篇先简单介绍下基础的,后面再跟大家分享下其它的功能。