网络爬虫的规则-搜云库技术团队

1、网络爬虫：自动从互联网中定向（有目标、过滤无关信息）或不定向（随机）地采集信息的一种程序。常用的类型有：通用网络爬虫（不定向）、聚焦网络爬虫（定向设置过滤规则）。

2、网络爬虫的应用：①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据，进行数据分析……

3、网络爬虫的运行原理

（1）通用网络爬虫：

①获取初始URL；②爬取页面并获取新的URL;③将爬取的内容放到服务器中，将新URL放入URL队列；④读取新URL，重复②③④；⑤直到满足停止条件结束。

（2）聚焦网络爬虫：

①对抓取目标进行相应的定义或描述；②获取初始URL；③爬取页面并获得新的URL；④将爬取的内容放到服务器中，过滤无关链接后，将新URL放入URL队列中；⑤确定下一步抓取目标，重复①②③④⑤；⑥直到满足停止条件结束。

限制网络爬虫

对服务器性能的骚扰问题
内容层面的法律风险问题
个人隐私泄露问题

因此，我们说网络爬虫的使用是要有它的规则。在实际的使用中，一些较大的网站都对网络爬虫有相关的限制。那么针对这些网站应该做出那些相应的策略：

1 使用代理亿牛云代理

适用情况：大部分网站均限制了IP的访问量

对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

        #! -*- encoding:utf-8 -*-

        import requests
        import random

        # 要访问的目标页面
        targetUrl = "http://httpbin.org/ip"

        # 要访问的目标HTTPS页面
        # targetUrl = "https://httpbin.org/ip"

        # 代理服务器(产品官网 www.16yun.cn)
        proxyHost = "t.16yun.cn"
        proxyPort = "31111"

        # 代理隧道验证信息
        proxyUser = "username"
        proxyPass = "password"

        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
            "host" : proxyHost,
            "port" : proxyPort,
            "user" : proxyUser,
            "pass" : proxyPass,
        }

        # 设置 http和https访问都是用HTTP代理
        proxies = {
            "http"  : proxyMeta,
            "https" : proxyMeta,
        }

        #  设置IP切换头
        tunnel = random.randint(1,10000)
        headers = {"Proxy-Tunnel": str(tunnel)}

        resp = requests.get(targetUrl, proxies=proxies, headers=headers)

        print resp.status_code
        print resp.text

2 伪装成浏览器，或者反“反盗链”

有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

User-Agent可以用亿牛云代理提供给的真实库，Referer的来源可以伪装成百度搜索来的。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url, headers=headers)

使用网络爬虫采集数据，需要高质量亿牛云爬虫代理才能更加高效稳定的采集出想要的数据。

文章永久链接：https://tech.souyunku.com/33970

限制网络爬虫

1 使用代理亿牛云代理

2 伪装成浏览器，或者反“反盗链”

JetBrains 全家桶，激活、破解、教程