专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

python爬虫学习指引

  • 需要有python基础
  • python爬虫相关网络请求包
    • urllib库
    • requests库
    • 两者区别:urllib出来比较早,比较原生,而requests在urllib基础上封装的,一些方法更好用。两者可以实现的功能差不多相同。
  • curl简单去学习curl,在模拟请求的时候可以用curl去调试
  • chrome浏览器:一般的web的抓取,用chrome的调试工具调试即可,大部分问题可以解决(包括抓包、调试js代码),切记熟练使用chrome调试工具。
  • 火狐浏览器:当chrome隐藏了一些请求头信息的时候,可以使用火狐浏览器去抓包,火狐中可以看到。
  • 抓包工具charles(Mac os)和fiddler(windows)必须熟悉其中一种。抓app数据包时必须用得到。
  • 爬虫框架:scrapy
  • 解析常用python包
    • 一些不规则数据:用正则—>re模块
    • dom树结构(html网页):xpath
    • xpath有语法规则:上菜鸟教程上搜索,这个xpath常用语法必须熟练
  • 某些网站做反扒做的很严重,需要调用浏览器来抓取了
    • selenium + headless(chromedriver、phantomjs)

总结

上面这些应付web端爬虫目前是可以了,app端抓取可能会使用到一些其他技术,比如说anyproxy等。

文章永久链接:https://tech.souyunku.com/31587

未经允许不得转载:搜云库技术团队 » python爬虫学习指引

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们