scrapy_headless(作者:fandsimple)
scrapy和headless完美结合
问题描述
我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的,因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的,可是有些页面的访问需要配合相应的cookies才能正确访问,可是在某些时候我们无法分析出这些cookies来自哪里,是怎么生成的,所以此时我们会想起使用selenium+headless,可是我们只需要它进行访问一个页面,访问完这个页面后继续使用scrapy去抓取数据,为了满足这个需求,我们就需要将selenium和scrapy完美的结合起来。
误区
有人会以为这样小题大作,有的人会这样思考,有这么麻烦么,在使用的时候导包,然后进行网页打开不就可以了么。我当时使用的时候也是这样想的,可是在实践过程中,遇到这样一个问题,假如有个url列表,需要使用selenium去访问,可是selenium访问是同步的,耗时较长,所以如果这个url列表很大的话根本执行不下去,下面封装的这个scrapy和headless结合的简单框架,用法和平时使用scrapy几乎一样,调度的时候也是利用scrapy的Engine(调度中心)进行调度的,这样就可以异步进行了。
大概思路
利用scrapy的下载中间件,自己重写middleware中的process_request方法,利用其返回值不同进行改变程序执行流程,当需要selenium执行的时候,在中间件中利用headless进行访问,然后模拟构造scrapy的Request对象,直接返回Response对象,这样就可以不去远程服务器上进行下载,直接返回到spider中。
框架的使用
说明:直接克隆项目,配置好chromedriver,然后运行即可,读者可以重点阅读myMiddlewares中seleniumMiddleware中的SeleniumMiddleware类,该类特别简单。
在setting.py文件中可以对headless进行一些简单配置,详情以在setting文件中标明。如需其他配置,读者可以自己拓展。
使用:同scrapy中用法相同,只是在yield request之前,需要进行request.meta['is_selenium'] = True,标志该请求需要使用headless进行发起。
文章永久链接:https://tech.souyunku.com/31595