一些关键信息
请求头的关键信息
1.User-Agent:请求载体的身份识别。(用什么发的请求)
2.Referer:防盗链。(请求的页面来源)
3.Cookie:本地字符串数据信息。(用户登录信息,反爬的token)
请求方式
1.get
2.post
响应头的关键信息
1.Cookie:本地字符串数据信息。(用户登录信息,反爬的token)
2.一些奇怪的字符串(一般是token字样,防止攻击和反爬)
得到页面源代码可用库:
urlopen用法
1 2 3
| url = 'https://www.baidu.com' resp = urlopen(url) print(resp.read().decode('utf-8'))
|
request库用法
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| url = 'https://www.baidu.com/s'
headers = { 'User-Agent':'' 'Cookie':'' 'Referer':'' } params = { 'wd' : 'python' }
resp = requests.get(url, params=params, headers=headers) resp.encoding = 'utf-8' print(resp.text) print(resp.url)
|