re模块是python提供的一套关于处理正则表达式的模块. 核心功能有四个:
1. findall 查找所有. 返回list
2. search 会进行匹配. 但是如果匹配到了第一个结果. 就会返回这个结果. 如果匹配不上search返回的则是None
3. match 只能从字符串的开头进行匹配
4. finditer 和findall差不多. 只不过这时返回的是迭代器
5. 其他操作
爬虫重点:
正则在爬虫中的使用(简单案例):
此时利用的就是分组之后. 匹配成功后获取到的是分组后的结果. (?P\d+) 此时当前组所匹配的数据就会被分组到id组内. 此时程序可以改写成:
正则表达式和re模块就说这么多. 如果要把正则所有的内容全部讲清楚讲明白, 至少要一周以上的时间. 对于我们日常使用而言. 上述知识点已经够用了. 如果碰到一些极端情况建议想办法分部处理. 先对字符串进行拆分. 然后再考虑用正则.