专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

python爬虫系列(1.1-urllib模块常用方法的介绍)

一、关于urllib中常用方法的介绍

  • 1、urlopen网络请求

    urlopen方法是网络请求的方法,默认是get请求,如果传递了datapost请求

    from urllib import request

    if __name__ == "__main__":
        response = request.urlopen('http://www.baidu.com')
        print(response.read())

  • 2、urlretrieve下载文件
    from urllib import request

    if __name__ == "__main__":
        # 下载整个网页
        request.urlretrieve('http://www.baidu.com', 'baidu.html')
        # 下载图片
        request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')

二、关于编码的处理

  • 1、urlencode将字典类型数据转换为parsed模式
    from urllib import parse

    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re) # name=hello&age=20&gender=man

  • 2、parse_qsparse_qsl反序列化
    from urllib import parse

    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re)
        print(parse.parse_qs(re))

三、切割url的方法

  • 1、urlspliturlparse方法
    from urllib import request, parse

    if __name__ == "__main__":
        url = 'http://www.baidu.com?name=hello&age=20'
        print(parse.urlsplit(url))
        print(parse.urlparse(url))

    # 输出
    # SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
    # ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')

四、更多关于python爬虫文章可以访问

未经允许不得转载:搜云库技术团队 » python爬虫系列(1.1-urllib模块常用方法的介绍)

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们