数据采集中代理IP的使用

十点数据 1年前 ⋅ 2837 阅读

1.首先构造: session`

import requests

session=requests.Session()

2.构造代理: proxy

proxies的格式如下

第一种:用户名username、 密码password、
proxy_dict = { "http": "http://username:password@IP:PORT", "https": "http://username:password@IP:PORT" }

第二种:无 用户名和密码的:

proxy_dict = {'http': 'http://ip:port', 'https': 'http://ip:port'}

3.构造headers

headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36" 
        }

4,根据URL获取HTML源码:

url="http://www.baidu.cpom"
req=session.get(url,headers=headers,proxies=proxy_dict)

rep.text

全部评论: 0

    我有话说: