2 正则表达式语法
2.1 单字符匹配
表达式含义.匹配单个任意字符[...] 匹配包含在方括号内的任意单个字符\d \D匹配数字 / 非数字\s \S匹配空白字符 / 非空白字符\w \W匹配单词字符[a-zA-Z0-9] / 匹配非单词字符
2.4 分组匹配
表达式含义举例|匹配左右任意一个表达式[\w]{4,6}@(163|126).com(abc)括号中表达式作为一个分组\<number>引用编号为number的分组匹配到的字符串<([\w]+>)[\w]+</\1 ↔ <([\w]+>)[\w]+</[\w]+>(?p<name>)给分组命名<(?p<mark>[\w]+>)[\w]+</(?p=mark) ↔ <([\w]+>)[\w]+</[\w]+>(?p=name)引用命名为name的分组
3 re模块方法
3.1 re.match函数
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)函数参数说明:
参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法描述group(num=0)匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。groups()返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。以上实例运行输出结果为:
(0, 3) None实例
1 #!/usr/bin/python3 2 import re 3 4 line = "Cats are smarter than dogs" 5 6 matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I) 7 8 if matchObj: 9 print ("matchObj.group() : ", matchObj.group()) 10 print ("matchObj.group(1) : ", matchObj.group(1)) 11 print ("matchObj.group(2) : ", matchObj.group(2)) 12 else: 13 print ("No match!!")以上实例执行结果如下:
matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) : smarte3.2 re.search方法
re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:
re.search(pattern, string, flags=0)函数参数说明:
参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
匹配成功re.search方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法描述group(num=0)匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。groups()返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。以上实例运行输出结果为:
(0, 3) (11, 14)实例
1 #!/usr/bin/python3 2 3 import re 4 5 line = "Cats are smarter than dogs"; 6 7 searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I) 8 9 if searchObj: 10 print ("searchObj.group() : ", searchObj.group()) 11 print ("searchObj.group(1) : ", searchObj.group(1)) 12 print ("searchObj.group(2) : ", searchObj.group(2)) 13 else: 14 print ("Nothing found!!")以上实例执行结果如下:
searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) : smarter3.3 re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
实例
1 #!/usr/bin/python3 2 3 import re 4 5 line = "Cats are smarter than dogs"; 6 7 matchObj = re.match( r'dogs', line, re.M|re.I) 8 if matchObj: 9 print ("match --> matchObj.group() : ", matchObj.group()) 10 else: 11 print ("No match!!") 12 13 matchObj = re.search( r'dogs', line, re.M|re.I) 14 if matchObj: 15 print ("search --> matchObj.group() : ", matchObj.group()) 16 else: 17 print ("No match!!")以上实例运行结果如下:
No match!! search --> matchObj.group() : dogs3.4 检索和替换
Python 的re模块提供了re.sub用于替换字符串中的匹配项。
语法:
re.sub(pattern, repl, string, count=0)参数:
pattern : 正则中的模式字符串。repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。实例
1 #!/usr/bin/python3 2 import re 3 4 phone = "2004-959-559 # 这是一个电话号码" 5 6 # 删除注释 7 num = re.sub(r'#.*$', "", phone) 8 print ("电话号码 : ", num) 9 10 # 移除非数字的内容 11 num = re.sub(r'\D', "", phone) 12 print ("电话号码 : ", num)以上实例执行结果如下:
电话号码 : 2004-959-559 电话号码 : 2004959559repl 参数是一个函数
以下实例中将字符串中的匹配的数字乘于 2:
实例
1 #!/usr/bin/python 2 3 import re 4 5 # 将匹配的数字乘于 2 6 def double(matched): 7 value = int(matched.group('value')) 8 return str(value * 2) 9 10 s = 'A23G4HFD567' 11 print(re.sub('(?P<value>\d+)', double, s))执行输出结果为:
A46G8HFD11343.5 compile 函数
compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
语法格式为:
re.compile(pattern[, flags])参数:
pattern : 一个字符串形式的正则表达式flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为: re.I 忽略大小写re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境re.M 多行模式re.S 即为' . '并且包括换行符在内的任意字符(' . '不包括换行符)re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库re.X 为了增加可读性,忽略空格和' # '后面的注释实例
1 >>>import re 2 >>> pattern = re.compile(r'\d+') # 用于匹配至少一个数字 3 >>> m = pattern.match('one12twothree34four') # 查找头部,没有匹配 4 >>> print m 5 None 6 >>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配 7 >>> print m 8 None 9 >>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配 10 >>> print m # 返回一个 Match 对象 11 <_sre.SRE_Match object at 0x10a42aac0> 12 >>> m.group(0) # 可省略 0 13 '12' 14 >>> m.start(0) # 可省略 0 15 3 16 >>> m.end(0) # 可省略 0 17 5 18 >>> m.span(0) # 可省略 0 19 (3, 5)
在上面,当匹配成功时返回一个 Match 对象,其中:
group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0);start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;span([group]) 方法返回 (start(group), end(group))。再看看一个例子:
实例
1 >>>import re 2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写 3 >>> m = pattern.match('Hello World Wide Web') 4 >>> print m # 匹配成功,返回一个 Match 对象 5 <_sre.SRE_Match object at 0x10bea83e8> 6 >>> m.group(0) # 返回匹配成功的整个子串 7 'Hello World' 8 >>> m.span(0) # 返回匹配成功的整个子串的索引 9 (0, 11) 10 >>> m.group(1) # 返回第一个分组匹配成功的子串 11 'Hello' 12 >>> m.span(1) # 返回第一个分组匹配成功的子串的索引 13 (0, 5) 14 >>> m.group(2) # 返回第二个分组匹配成功的子串 15 'World' 16 >>> m.span(2) # 返回第二个分组匹配成功的子串 17 (6, 11) 18 >>> m.groups() # 等价于 (m.group(1), m.group(2), ...) 19 ('Hello', 'World') 20 >>> m.group(3) # 不存在第三个分组 21 Traceback (most recent call last): 22 File "<stdin>", line 1, in <module> 23 IndexError: no such group 3.6 findall在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
语法格式为:
findall(string[, pos[, endpos]])参数:
string 待匹配的字符串。 pos 可选参数,指定字符串的起始位置,默认为 0。 endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。查找字符串中的所有数字:
实例
1 import re 2 3 pattern = re.compile(r'\d+') # 查找数字 4 result1 = pattern.findall('runoob 123 google 456') 5 result2 = pattern.findall('run88oob123google456', 0, 10) 6 7 print(result1) 8 print(result2)输出结果:
['123', '456'] ['88', '12']3.7 re.finditer
和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
语法格式为:
re.finditer(pattern, string, flags=0)参数:
参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。输出结果:
12 32 43 33.8 re.split
split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])参数:
参数描述pattern匹配的正则表达式string要匹配的字符串。maxsplit分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。实例
1 >>>import re 2 >>> re.split('\W+', 'runoob, runoob, runoob.') 3 ['runoob', 'runoob', 'runoob', ''] 4 >>> re.split('(\W+)', ' runoob, runoob, runoob.') 5 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', ''] 6 >>> re.split('\W+', ' runoob, runoob, runoob.', 1) 7 ['', 'runoob, runoob, runoob.'] 8 9 >>> re.split('a*', 'hello world') # 对于一个找不到匹配的字符串而言,split 不会对其作出分割 10 ['hello world']
4 练习中的总结
4.1 贪婪与非贪婪 括号有无
代码
1 import re 2 str1 = "<p>1</p><p>2</p>" 3 pattern = re.compile(r'<p>[\s\S]*</p>') #贪婪 4 pattern_1 = re.compile(r'<p>[\s\S]*?</p>') #非贪婪 5 pattern_2 = re.compile(r'<p>([\s\S]*?)</p>') #有括号 6 r = re.findall(pattern, str1) 7 r_1 = re.findall(pattern_1, str1) 8 r_2 = re.findall(pattern_2, str1) 9 print(r) 10 print(r_1) 11 print(r_2)输出结果
['<p>1</p><p>2</p>'] ['<p>1</p>', '<p>2</p>'] ['1', '2']4.2 匹配任意正的浮点数
1 \d*[\s\S]*\d 2 \d*\.\d|\d*
转载于:https://www.cnblogs.com/jiangchengzi93812/p/9451857.html
相关资源:数据结构—成绩单生成器