Python3笔记--Re模块(正则表达式)

it2024-10-18  18

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

一些功能函数

  

re.search函数

原型:search(pattern,string,flags=0)参数:pattern:匹配的正则表达式,string:要匹配的字符串,flags:标志位,用于控制正则表达式的匹配方式

功能:扫描整个字符串,并返回第一个成功的匹配Match对象

import re print(re.search("sunck","good man is sunCk.sunck is nice.")) #<re.Match object; span=(18, 23), match='sunck'>

 

 

re.match函数

原型:match(pattern,string,flags=0)参数:pattern:匹配的正则表达式,string:要匹配的字符串,flags:标志位,用于控制正则表达式的匹配模式功能:尝试从字符串的起始位置匹配,成功返回Match对象.如果不是起始位置匹配成功,还是返回None,有一定局限性

import re print(re.match("www","www.baidu.com")) #<re.Match object; span=(0, 3), match='www'>

 

re.findall函数

原型:findall(pattern,string,flags=0)参数:pattern:匹配的正则表达式,string:要匹配的字符串,flags:标志位,用于控制正则表达式的匹配方式

功能:扫描整个字符串,并返回匹配的结果的列表

print(re.findall("sunck","good man is sunck!sunck is good man.")) #['sunck', 'sunck']

 

re.finditer函数

原型:finditer(pattern,string,flags=0)参数:pattern:匹配的正则表达式,string:要匹配的字符串,flags:标志位,用于控制正则表达式的匹配方式

功能:与findall类似,扫描整个字符串,并返回一个迭代器

str2="sunck is a good man!sunck is a nice man!sunck is a handsome man!" res=re.finditer(r"sunck",str2) #这里字符串前r表示不转义,使用真实字符 while True: #防止迭代器为空时的报错 try: n=next(res) print(n) except: break #<re.Match object; span=(0, 5), match='sunck'> #<re.Match object; span=(20, 25), match='sunck'> #<re.Match object; span=(40, 45), match='sunck'>

 

 

re.sub()与re.subn()函数

字符串的替换和修改sub(pattern,repl,string,count=0)subn(pattern,repl,string,count=0)pattern:正则表达式(规则)repl:指定的用来替换的字符串string:目标字符串count:最多替换次数功能:在目标字符串中以正则表达式的规则匹配字符串,再把它们替换成指定的字符串。可以指定替换的次数。0为默认替换所有。sub与subn区别:前者返回第一个被替换的字符串,后者返回一个元组,元组中第一个元素为替换的字符串,第二个元素表示被替换的次数。

str3 = r'https://www.baidu.com/s?word=ts&tn=78000241_11_hao_pg' res = re.sub('/s.*','',str3) print(res) #https://www.baidu.com

 

re.split(pattern,string)字符串切割用re进行字符串切割比原生的字符串方法split()可更灵活定义切割的规则 str4 = "sunck is a good man" print(str4.split(" ")) print(re.split(r" +",str4)) #['sunck', '', '', '', '', 'is', '', 'a', 'good', '', 'man'] #['sunck', 'is', 'a', 'good', 'man']

 

re.compile函数

用以编译:re.compile(pattern,flags=0)pattern:要编译的正则表达式

re_telephon = re.compile(r"\d{11}") print(re_telephon.findall('188888888888888')) #['18888888888']

 

元字符

.(点) (规则里的.元字符)可以是任何一个字符,匹配任意除换行符"\n"外的字符 \ 反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符),2.反斜杠后边跟普通字符实现特殊功能;(即预定义字符) *(规则里的*元字符)前面的一个字符可以是0个或多个原本字符,匹配前一个字符0或多次,贪婪匹配前导字符有多少个就匹配多少个,如果规则里只有一个分组,尽量避免用*否则会有可能匹配出空字符串 +(规则里的+元字符)前面的一个字符可以是1个或多个原本字符,匹配前一个字符1次或无限次,贪婪匹配前导字符有多少个就匹配多少个 ?(规则里的?元字符)前面的一个字符可以是0个或1个原本字符,匹配一个字符0次或1次,还有一个功能是可以防止贪婪匹配,详情见非贪婪匹配 ^ 匹配字符串开头。在多行模式中匹配每一行的开头,注意:^元字符如果写到[]字符集里就是反取,单独在表达式中使用就是匹配开头 $ 匹配字符串末尾,在多行模式中匹配每一行的末尾 | 或,或就是前后其中一个符合就匹配 {}   (规则里的 {} 元字符)前面的一个字符,是自定义字符数,位数的原本字符,{m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次,{0,}匹配前一个字符0或多次,等同于*元字符,{+,}匹配前一个字符1次或无限次,等同于+元字符,{0,1}匹配前一个字符0次或1次,等同于?元字符 []    (规则里的 [] 元字符)对应位置是[]里的任意一个字符就匹配,字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。 ()   也就是分组匹配,()里面的为一个组也可以理解成一个整体,如果()后面跟的是特殊元字符如   (adc)*   那么*控制的前导字符就是()里的整体内容,不再是前导一个字符

预定义字符集

\d 匹配数字,类似[0-9] \D 匹配非数字,类似[^0-9] \w 匹配任意数字、字母和下划线,类似[0-9a-zA-Z_] \W 匹配非数字、字母和下划线,类似[^0-9a-zA-Z_] \s 匹配任意空白字符(空格、换行、回车、换页、制表),类似[ \f\n\r\t] \S 匹配任意非空白字符(空格、换行、回车、换页、制表),类似[^ \f\n\r\t] \A    匹配字符串开始,和^区别是,即使在re.M模式下它也不会匹配它行的行首 \Z 匹配字符串结束,和$区别是,即使在re.M模式下它也不会匹配它行的行尾 \b 匹配一个单词的边界,也就是单词和空格间的位置 \B 匹配非单词边界 print(re.search(r"er\b","never")) print(re.search(r"er\b","nerve")) print(re.search(r"er\B","never")) print(re.search(r"er\B","nerve")) #<re.Match object; span=(3, 5), match='er'> #None #None #<re.Match object; span=(1, 3), match='er'>

 

正则匹配模式

  

re.I    忽略大小写re.L    做本地化识别re.M   多行匹配,影响^(匹配行首)和$(匹配行尾)re.S    使.点匹配包括换行符在内的所有字符re.U   根据Unicode字符集解析字符,影响\w,\W,\b,\Bre.X   使我们以更灵活的格式理解正则表达式

 

匹配多个字符

说明:下方的x,y,z均为假设的普通字符,不是正则表达式的元字符(xyz) 匹配小括号内的xyz(作为一个整体去匹配)

x?   匹配0个或1个x x*   匹配0个或任意多个字符(换行符除外) x+  匹配最少一个x x{n}  匹配确定的n个x x{n,}  匹配最少n个x x{n,m}   匹配最少n个最多m个x.注意:n<=m x|y    |表示或,匹配的是x或y

 

print(re.findall(r"(sunck)","suncks is a good man,is nice man sunck ")) #['sunck', 'sunck'] print(re.findall(r"a?","aaa")) #['a', 'a', 'a', ''] print(re.findall(r"a*","aaabaaaa")) #['aaa', '', 'aaaa', ''] print(re.findall(r"a+","aaaabaaaaaaaa")) #['aaaa', 'aaaaaaaa'] print(re.findall(r"a{3}","aaabaa")) #['aaa'] print(re.findall(r"a{3,}","aaaaaaabaa")) #['aaaaaaa'] print(re.findall(r"(s|Sunck)",'sunck--Sunck')) #['s', 'Sunck']

 

转载于:https://www.cnblogs.com/byadmin/articles/foundation-8.html

相关资源:数据结构—成绩单生成器
最新回复(0)