正则表达式,说白了就是用来匹配字符的,正则表达式是用来简洁表达一组字符串的表达式.
正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
很多编程语言都支持正则表达式进行字符串操作。在代码中常简写为regex、regexp或RE。
比如Pythonz中就有一个叫:re 的正则表达式库,这是Python的标准库,安装Python后自带,使用时只需要
import re
我们可以通过requests获取网页的页面信息,但是其中的信息太过于杂乱,我们需要从中提取我们需要的信息,那么我们可以用Python的正则表达式库来提取我们需要的信息,比如说,我们想要从中提取”百度一下,你就知道”的中文字符,我们这样操作
这样我们就可以把html页面中的”百度一下,你就知道”的标签从复杂凌乱的信息中提取出来了,再经过一些处理就可以拿出来了
语法
那我们开始学习正则表达式的语法了 以下是正则表达式的常用操作符:
. 表示任何单个字符
[ ] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a‐z]表示a到z单个字符
[^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符
* 前一个字符0次或无限次扩展 abc* 表示 ab、abc、abcc、abccc等
+ 前一个字符1次或无限次扩展 abc+ 表示 abc、abcc、abccc等
? 前一个字符0次或1次扩展 abc? 表示 ab、abc
| 左右表达式任意一个 abc|def 表示 abc、def
{m} 扩展前一个字符m次 ab{2}c表示abbc
{m,n} 扩展前一个字符m至n次(含n) ab{1,2}c表示abc、abbc
^ 匹配字符串开头 ^abc表示abc且在一个字符串的开头
$ 匹配字符串结尾 abc$表示abc且在一个字符串的结尾
( ) 分组标记,内部只能使用 | 操作符 (abc)表示abc,(abc|def)表示abc、def
\d 数字,等价于[0‐9]
\w 单词字符,等价于[A‐Za‐z0‐9_]
这些都是非常常见的正则表达式操作符,记住了,大部分都能用了。
我们接下来看一下经典的正则表达式匹配实例
^[A‐Za‐z]+$ 由26个字母组成的字符串
^[A‐Za‐z0‐9]+$ 由26个字母和数字组成的字符串
^‐?\d+$ 整数形式的字符串
^[0‐9]*[1‐9][0‐9]*$ 正整数形式的字符串
[1‐9]\d{5} 中国境内邮政编码,6位
[\u4e00‐\u9fa5] 匹配中文字符
\d{3}‐\d{8}|\d{4}‐\d{7} 国内电话号码,010‐68913536
正则表达式库
上面我们说过,re是Python的内置库,不需要安装,直接导入即可
raw string类型(原生字符串类型),也就是不包含对转义符再次转义的字符串
re库采用raw string类型表示正则表达式,表示为: r’text’
re库的主要函数共有6个,分别是
re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
re.findall( )这个比较简单常用,用法如下:
这个函数共有三个参数,pattern, string , flags
re.findall(pattern, string, flags=0)
搜索字符串,以列表类型返回全部能匹配的子串
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags 正则表达式使用时的控制标记
比如我们要从一堆字符中,把数字提取出来:
其他函数的使用实例
定向爬虫
爬取豆瓣电影,上海热映的电影:
url = https://movie.douban.com/cinema/nowplaying/shanghai/
我们需要定义一个函数,用于获取豆瓣热映的电影信息:
import requests //导入需要用到的库
import re
def getHTMLText(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print("Erro_get")
我们还需要定义一个函数,用于提取所需要的电影信息:
def parsePage(ilt,html):
tlt = re.findall(r'data-title\=\".*?\"',html)
for i in range(len(tlt)):
plt = eval(tlt[i].split('=')[1])
if plt in ilt:
pass
else:
ilt.append(plt)
然后第三个函数用于输出电影列表:
def printInfo(ilt):
print("上 海 热 映")
for i in ilt:
print(i)
再定义一个主函数去调用这些功能函数:
def main():
url = 'https://movie.douban.com/cinema/nowplaying/shanghai/'
kv = {'User-Agent' : 'Mozilla/5.0'}
list = []
html = getHTMLText(url)
parsePage(list,html)
printInfo(list)
main()
运行即可看到以下画面:
总结
re库的功能非常强大,这些只是一些非常浅显的内容。
大家可以多实战,掌握正则表达式的用法。