Python 数据分析
数据解析
Requests等可以抓取整个网页,但是我们并不需要整个网页的内容,则可以通过数据提取得到需要的内容。
三种解析方式:
1.正则表达式解析
2.bs4解析
3.xpath解析
正则表达式
优点: 速度快、效率高、准确性高 缺点:上手困难
正则语法:使用元字符进行排列组合用来匹配字符串,在线测试正则表达式:tool.oschina.net/regex/
元字符: 具有固定含义的符号
常用元字符
1 | |
量词:
1 | |
贪婪匹配和惰性匹配:
1 | |
案例:
1 | |
评论
Requests等可以抓取整个网页,但是我们并不需要整个网页的内容,则可以通过数据提取得到需要的内容。
三种解析方式:
1.正则表达式解析
2.bs4解析
3.xpath解析
优点: 速度快、效率高、准确性高 缺点:上手困难
正则语法:使用元字符进行排列组合用来匹配字符串,在线测试正则表达式:tool.oschina.net/regex/
元字符: 具有固定含义的符号
1 | |
1 | |
1 | |
案例:
1 | |