 

当前位置：搜云库技术团队  Java汇总  正文

scrapy和headless完美结合

2020-07-31 分类：Java汇总阅读()

scrapy_headless（作者：fandsimple）

git地址：github.com/fandsimple/…

scrapy和headless完美结合

问题描述

我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的，因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的，可是有些页面的访问需要配合相应的cookies才能正确访问，可是在某些时候我们无法分析出这些cookies来自哪里，是怎么生成的，所以此时我们会想起使用selenium+headless，可是我们只需要它进行访问一个页面，访问完这个页面后继续使用scrapy去抓取数据，为了满足这个需求，我们就需要将selenium和scrapy完美的结合起来。

误区

有人会以为这样小题大作，有的人会这样思考，有这么麻烦么，在使用的时候导包，然后进行网页打开不就可以了么。我当时使用的时候也是这样想的，可是在实践过程中，遇到这样一个问题，假如有个url列表，需要使用selenium去访问，可是selenium访问是同步的，耗时较长，所以如果这个url列表很大的话根本执行不下去，下面封装的这个scrapy和headless结合的简单框架，用法和平时使用scrapy几乎一样，调度的时候也是利用scrapy的Engine（调度中心）进行调度的，这样就可以异步进行了。

大概思路

利用scrapy的下载中间件，自己重写middleware中的process_request方法，利用其返回值不同进行改变程序执行流程，当需要selenium执行的时候，在中间件中利用headless进行访问，然后模拟构造scrapy的Request对象，直接返回Response对象，这样就可以不去远程服务器上进行下载，直接返回到spider中。

框架的使用

说明：直接克隆项目，配置好chromedriver，然后运行即可，读者可以重点阅读myMiddlewares中seleniumMiddleware中的SeleniumMiddleware类，该类特别简单。
在setting.py文件中可以对headless进行一些简单配置,详情以在setting文件中标明。如需其他配置，读者可以自己拓展。

使用：同scrapy中用法相同，只是在yield request之前，需要进行request.meta['is_selenium'] = True，标志该请求需要使用headless进行发起。

文章永久链接：https://tech.souyunku.com/31595

未经允许不得转载：搜云库技术团队 » scrapy和headless完美结合

JetBrains 全家桶，激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程，支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程，还是最新激活码，均可免费获得，帮助开发者解决常见激活问题，确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码，快速解决激活难题，全面覆盖 2024/2025 版本！

联系我们联系我们

回顶部