正则表达式学习总结

it2022-05-09 38

1 正则表达式概念

使用单个字符串来描述匹配一系列符合某个句法规则的字符串是对字符串操作的一种逻辑公式应用场景：处理文本和数据正则表达式过程：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；否则，匹配失效

2 正则表达式语法

2.1 单字符匹配

表达式含义.匹配单个任意字符[...] 匹配包含在方括号内的任意单个字符\d \D匹配数字 / 非数字\s \S匹配空白字符 / 非空白字符\w \W匹配单词字符[a-zA-Z0-9] / 匹配非单词字符

2.2 字符串匹配

表达式含义举例*匹配前一个字符0次或无限次[A-Z][a-z]* 匹配以大写字母来头的字母字符串+匹配前一个字符1次或无限次[_a-zA-Z]+[_\w]* 匹配以字母或下划线开头的有效变量名?匹配前一个字符0次或1次[0-9]?[0-9] 匹配0~99的数字{m} {m,n}匹配前一个字符m次或m到n次[a-zA-Z0-9]{6-10}@163.com*? / +? / ??匹配模式变为非贪婪（尽量少匹配字符）

2.3 边界匹配

表达式含义^匹配字符串开头$匹配字符串结尾\A / \Z指定字符串必须出现在开头 / 结尾

2.4 分组匹配

表达式含义举例|匹配左右任意一个表达式[\w]{4,6}@(163|126).com(abc)括号中表达式作为一个分组\<number>引用编号为number的分组匹配到的字符串<([\w]+>)[\w]+</\1 ↔ <([\w]+>)[\w]+</[\w]+>(?p<name>)给分组命名<(?p[\w]+>)[\w]+</(?p=mark) ↔ <([\w]+>)[\w]+</[\w]+>(?p=name)引用命名为name的分组

3 re模块方法

3.1 re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法描述group(num=0)匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。groups()返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例

1 import re 2 print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配 3 print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配

以上实例运行输出结果为：

(0, 3) None

实例

1 #!/usr/bin/python3 2 import re 3 4 line = "Cats are smarter than dogs" 5 6 matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I) 7 8 if matchObj: 9 print ("matchObj.group() : ", matchObj.group()) 10 print ("matchObj.group(1) : ", matchObj.group(1)) 11 print ("matchObj.group(2) : ", matchObj.group(2)) 12 else: 13 print ("No match!!")

以上实例执行结果如下：

matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) : smarte

3.2 re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

re.search(pattern, string, flags=0)

函数参数说明：

参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

实例

1 #!/usr/bin/python3 2 3 import re 4 5 print(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配 6 print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配

以上实例运行输出结果为：

(0, 3) (11, 14)

实例

1 #!/usr/bin/python3 2 3 import re 4 5 line = "Cats are smarter than dogs"; 6 7 searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I) 8 9 if searchObj: 10 print ("searchObj.group() : ", searchObj.group()) 11 print ("searchObj.group(1) : ", searchObj.group(1)) 12 print ("searchObj.group(2) : ", searchObj.group(2)) 13 else: 14 print ("Nothing found!!")

以上实例执行结果如下：

searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) : smarter

3.3 re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

实例

1 #!/usr/bin/python3 2 3 import re 4 5 line = "Cats are smarter than dogs"; 6 7 matchObj = re.match( r'dogs', line, re.M|re.I) 8 if matchObj: 9 print ("match --> matchObj.group() : ", matchObj.group()) 10 else: 11 print ("No match!!") 12 13 matchObj = re.search( r'dogs', line, re.M|re.I) 14 if matchObj: 15 print ("search --> matchObj.group() : ", matchObj.group()) 16 else: 17 print ("No match!!")

以上实例运行结果如下：

No match!! search --> matchObj.group() : dogs

3.4 检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0)

参数：

pattern : 正则中的模式字符串。

repl : 替换的字符串，也可为一个函数。

string : 要被查找替换的原始字符串。count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

实例

1 #!/usr/bin/python3 2 import re 3 4 phone = "2004-959-559 # 这是一个电话号码" 5 6 # 删除注释 7 num = re.sub(r'#.*$', "", phone) 8 print ("电话号码 : ", num) 9 10 # 移除非数字的内容 11 num = re.sub(r'\D', "", phone) 12 print ("电话号码 : ", num)

以上实例执行结果如下：

电话号码 : 2004-959-559 电话号码 : 2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘于 2：

实例

1 #!/usr/bin/python 2 3 import re 4 5 # 将匹配的数字乘于 2 6 def double(matched): 7 value = int(matched.group('value')) 8 return str(value * 2) 9 10 s = 'A23G4HFD567' 11 print(re.sub('(?P<value>\d+)', double, s))

执行输出结果为：

A46G8HFD1134

3.5 compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为： re.I 忽略大小写re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境re.M 多行模式re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库re.X 为了增加可读性，忽略空格和' # '后面的注释

实例

1 >>>import re 2 >>> pattern = re.compile(r'\d+') # 用于匹配至少一个数字 3 >>> m = pattern.match('one12twothree34four') # 查找头部，没有匹配 4 >>> print m 5 None 6 >>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配 7 >>> print m 8 None 9 >>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配 10 >>> print m # 返回一个 Match 对象 11 <_sre.SRE_Match object at 0x10a42aac0> 12 >>> m.group(0) # 可省略 0 13 '12' 14 >>> m.start(0) # 可省略 0 15 3 16 >>> m.end(0) # 可省略 0 17 5 18 >>> m.span(0) # 可省略 0 19 (3, 5)

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；span([group]) 方法返回 (start(group), end(group))。

再看看一个例子：

实例

1 >>>import re 2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写 3 >>> m = pattern.match('Hello World Wide Web') 4 >>> print m # 匹配成功，返回一个 Match 对象 5 <_sre.SRE_Match object at 0x10bea83e8> 6 >>> m.group(0) # 返回匹配成功的整个子串 7 'Hello World' 8 >>> m.span(0) # 返回匹配成功的整个子串的索引 9 (0, 11) 10 >>> m.group(1) # 返回第一个分组匹配成功的子串 11 'Hello' 12 >>> m.span(1) # 返回第一个分组匹配成功的子串的索引 13 (0, 5) 14 >>> m.group(2) # 返回第二个分组匹配成功的子串 15 'World' 16 >>> m.span(2) # 返回第二个分组匹配成功的子串 17 (6, 11) 18 >>> m.groups() # 等价于 (m.group(1), m.group(2), ...) 19 ('Hello', 'World') 20 >>> m.group(3) # 不存在第三个分组 21 Traceback (most recent call last): 22 File "<stdin>", line 1, in <module> 23 IndexError: no such group 3.6 findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式为：

findall(string[, pos[, endpos]])

参数：

string 待匹配的字符串。 pos 可选参数，指定字符串的起始位置，默认为 0。 endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

查找字符串中的所有数字：

实例

1 import re 2 3 pattern = re.compile(r'\d+') # 查找数字 4 result1 = pattern.findall('runoob 123 google 456') 5 result2 = pattern.findall('run88oob123google456', 0, 10) 6 7 print(result1) 8 print(result2)

输出结果：

['123', '456'] ['88', '12']

3.7 re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

语法格式为：

re.finditer(pattern, string, flags=0)

参数：

参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

实例

1 import re 2 3 it = re.finditer(r"\d+","12a32bc43jf3") 4 for match in it: 5 print (match.group() )

输出结果：

12 32 43 3

3.8 re.split

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

参数：

参数描述pattern匹配的正则表达式string要匹配的字符串。maxsplit分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。flags标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

实例

1 >>>import re 2 >>> re.split('\W+', 'runoob, runoob, runoob.') 3 ['runoob', 'runoob', 'runoob', ''] 4 >>> re.split('(\W+)', ' runoob, runoob, runoob.') 5 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', ''] 6 >>> re.split('\W+', ' runoob, runoob, runoob.', 1) 7 ['', 'runoob, runoob, runoob.'] 8 9 >>> re.split('a*', 'hello world') # 对于一个找不到匹配的字符串而言，split 不会对其作出分割 10 ['hello world']

4 练习中的总结

4.1 贪婪与非贪婪括号有无

代码

1 import re 2 str1 = "12" 3 pattern = re.compile(r'[\s\S]*') #贪婪 4 pattern_1 = re.compile(r'[\s\S]*?') #非贪婪 5 pattern_2 = re.compile(r'([\s\S]*?)') #有括号 6 r = re.findall(pattern, str1) 7 r_1 = re.findall(pattern_1, str1) 8 r_2 = re.findall(pattern_2, str1) 9 print(r) 10 print(r_1) 11 print(r_2)

输出结果

['12'] ['1', '2'] ['1', '2']

4.2 匹配任意正的浮点数

1 \d*[\s\S]*\d 2 \d*\.\d|\d*

转载于:https://www.cnblogs.com/jiangchengzi93812/p/9451857.html

相关资源：数据结构—成绩单生成器

专利

最新回复(0)