专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

scrapy和headless完美结合

scrapy_headless(作者:fandsimple)

git地址:github.com/fandsimple/…

scrapy和headless完美结合

问题描述

我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的,因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的,可是有些页面的访问需要配合相应的cookies才能正确访问,可是在某些时候我们无法分析出这些cookies来自哪里,是怎么生成的,所以此时我们会想起使用selenium+headless,可是我们只需要它进行访问一个页面,访问完这个页面后继续使用scrapy去抓取数据,为了满足这个需求,我们就需要将selenium和scrapy完美的结合起来。

误区

有人会以为这样小题大作,有的人会这样思考,有这么麻烦么,在使用的时候导包,然后进行网页打开不就可以了么。我当时使用的时候也是这样想的,可是在实践过程中,遇到这样一个问题,假如有个url列表,需要使用selenium去访问,可是selenium访问是同步的,耗时较长,所以如果这个url列表很大的话根本执行不下去,下面封装的这个scrapy和headless结合的简单框架,用法和平时使用scrapy几乎一样,调度的时候也是利用scrapy的Engine(调度中心)进行调度的,这样就可以异步进行了。

大概思路

利用scrapy的下载中间件,自己重写middleware中的process_request方法,利用其返回值不同进行改变程序执行流程,当需要selenium执行的时候,在中间件中利用headless进行访问,然后模拟构造scrapy的Request对象,直接返回Response对象,这样就可以不去远程服务器上进行下载,直接返回到spider中。

框架的使用

说明:直接克隆项目,配置好chromedriver,然后运行即可,读者可以重点阅读myMiddlewares中seleniumMiddleware中的SeleniumMiddleware类,该类特别简单。
在setting.py文件中可以对headless进行一些简单配置,详情以在setting文件中标明。如需其他配置,读者可以自己拓展。

使用:同scrapy中用法相同,只是在yield request之前,需要进行request.meta['is_selenium'] = True,标志该请求需要使用headless进行发起。

文章永久链接:https://tech.souyunku.com/31595

未经允许不得转载:搜云库技术团队 » scrapy和headless完美结合

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们