1.首先构造: session
`
import requests
session=requests.Session()
2.构造代理: proxy
proxies的格式如下
第一种:用户名username、 密码password、
proxy_dict = {
"http": "http://username:password@IP:PORT",
"https": "http://username:password@IP:PORT"
}
第二种:无 用户名和密码的:
proxy_dict = {'http': 'http://ip:port', 'https': 'http://ip:port'}
3.构造headers
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
4,根据URL获取HTML源码:
url="http://www.baidu.cpom"
req=session.get(url,headers=headers,proxies=proxy_dict)
rep.text