字符含义.
表示匹配除了换行符外的任何字符
注:通过设置re.DITALL标志使.匹配任何字符(包括换行符)
|A|B,表示匹配正则表达式A或者B^1.(脱字符)匹配三个月人员字符串的开始位置
2.如果设置了re.MULTINE标志,^也匹配换行符之后的位置
$1.匹配字符串的结束位置
2.如果设置了re.MULTINE标志,$也匹配换行符之后的位置
\1.将一个普通字符串变成特殊字符,例如\d表示匹配所有的十进制数字
2.解除元字符的特殊功能,例如\.表示匹配点号本身
3.引号序号对应的子组所匹配的字符串
[...]字符类,匹配所包含的任意一iiige字符
注1:连字符-如果出现在字符串中间表示字符范围描述;如果出现在首位仅作为普通字符
注2:特殊字符仅有反斜线\保持特殊含义,用于转义字符。其他特殊字符如*,+,?等均作为普通字符匹配
注3:脱字符^如果出现在首位则表示匹配不包含其中的任意字符;如果^出现在字符串中间就仅作为普通字符串匹配
{M,N}M和N均为非负整数,其中M<=N,表示前边的RE匹配M~N次
注1:{M,} 表示至少匹配M次
注2:{,N}等价与{0,N}
注2:{N}表示需要匹配N次
*匹配前面的子表达式零次或多次,等价于{0,}+匹配前面的表达式一次或多次,等价于{1,}?匹配前面的子表达式零次或一次,等价于{0,1}*?,+?,??默认情况下*,+和?的匹配模式是贪婪模式(即会尽可能多地匹配符合规则的字符串);*?,+?和??表示启用对应的非贪婪模式。
举个例子:对于字符串'baidu',正则表达式baidu+会匹配整个字符串,则baidu+?则匹配'baidu'。
{M,N}?同上,启动非贪婪模式,即只匹配M次(...)匹配圆括号i中的正则表达式,或者指定一个子组的开始和结束位置
注:子组的内容可以在匹配之后被\数字再次引用
举个例子:(\w+)\1可以匹配字符串'baidu baidu.com'中的'baidu baidu'(注意有空格)
(?...)(?开头的表示正则表达式的扩展语法(下边这些是Python支持的所有扩展语法))(?aiLmsux)1.(?开头可以紧跟着'a','i','L','m','s','u','x'中的一个或多个字符,只能在正则表达式的开头使用
2.每个字符对应一种匹配标志:re-A(只匹配ASCII字符),re-I(忽略大小写),re-L(区域设置),re-M(多行模式),re-S(.匹配任何字符),re-X(详细表达式),包含这些字符会影响整个正则表达式的规则
3.当你不想通过re.compile()设置正则表达式标志,这种方法非常有用
注意:由于(?x)决定正则表达式如何被解析,所以它应该总是被放在最前边(最多允许前边有空白符)。如果(?x)的前边是非空字符,那么(?x)就发挥不了作用了
(?...)非捕获组,即该子组匹配的字符串无法从后边获取(?P<name>)命名组,通过组的名字(name)即可访问到子组匹配的字符串(?P=name)反向引用一个命名组,它匹配指定命名组匹配的任何内容(?#...)注释,括号中的内容将被忽略(?=...)向前肯定断言。如果当前包含的正则表达式(这里以...表示)在当前位置成功匹配,则代表成功,否则失败。一旦该部分正则表达式被匹配引擎尝试过,就不会继续进行匹配了;剩下的模式在此断言开始的地方继续尝试。
举个例子:love(?=baidu)只匹配后边紧跟着'baidu'的字符串'love'
(?!...)前向否定断言。这跟前向肯定断言相反(不匹配则表示成功,匹配则表示失败)。
举个例子:baidu(?!\.com)只匹配后边不是‘.com’的字符串‘baidu’
(?<=...)后向肯定断言。跟前向肯定断言一样,只是方向相反。
举个例子:(?<=love)baidu只匹配前边紧跟着'love'的字符串‘baidu’
(?<!...)后向否定断言。跟前向否定断言一样,只是方向相反。
举个例子:(?<!baidu)\.com子匹配前边不是'baidu'的字符串'.com'
(?(id/name)yes-pattern|no-pattern)1.如果子组的序号或名字存在的话,则尝试yes-pattern匹配模式;否则尝试no-pattern匹配模式
2.no-pattern是可选的
举个例子:(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)是一个匹配邮件格式的正则表达式,可以匹配<user@baidu.com>和‘user,@baidu.com’,但不会匹配<user@baidu.com 或uer@baiidu.com>
\下边列举了由字符串'\'和另外一个字符串组成的特殊含义。注意‘\’+元字符的组合可以解除元字符的特殊功能\序号1.引用序号对应的子组所匹配的字符串,子组的序号从1开始。
2.如果序号是以0开头,或者3个数字的长度。那么不会被应用于引用对应的子组,而是用于匹配八进制数字所表示的ASCII码值对应的字符
举个例子:(.+) \1会匹配'baidubaidu'或‘55 55’,但不会匹配'baiduCbaiduC'(注意,因为子组后边还有一个空格)
\A
匹配输入字符串的开始位置\Z匹配输入字符串的结束位置\b匹配一个单词边界,单词被定义为Unidcode的字母数字或下划线字符
举个例子:\bbaidu\b会匹配字符串‘love baidu’,'baidu.'或'(baidu)'
\B匹配非单词边界,其实就是与\b相反
举个例子:py\B会匹配字符串'python','py3'但不会匹配'py','py.'或'py!'
\d1.对于Unicode(str类型)模式:匹配任何一个数字,包括[0-9]和其他数字字符;如果开启了re.ASCII标志,就匹配[0-9]
2.对于8位(bytes类型)模式:匹配[0-9]中任何一个数字
\D匹配任何非Unicode的数字,其实就是与\d相反;如果开启了re.ASCII标志,则相当于匹配[^0-9]\s1.对于Unicode(str类型)模式:匹配Unicode中的空白字符(包括[\t\n\r\f\v])以及其他空白字符);如果开启了re.ASCII标志,就只匹配[\t\n\r\f\v])
2.对于8位(bytes类型)模式:匹配ASCII中定义的空白字符,即[\t\n\r\f\v])
\S匹配任何非Unicode中的空白字符,其实就是与\s相反;如果开启了re.ASCII标志,则相当于匹配[^\t\n\r\f\v])\w1.对于Unicode(str类型)模式:匹配任何Unicode的单词字符,基本上所有语言的字符都可以匹配,当然也包含数字和下横线;如果开启了re.ASCII标志,就匹配[a-zA-Z0-0_]
2.对于8位(bytes类型)模式:匹配ASCII中定义的字母数字,即[a-zA-Z0-9_]
\W匹配任何非Unicode的单词字符,其实就是与\w相反;如果开启了re.ASCII标志,则相当于匹配[^a-zA-Z0-9_]转义符号正则表达式还支持大部分Python字符串的转义符号:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\
注1:\b通常用于匹配一个单词边界,只有在字符类中才表示"退格"
注2:\u和\U只有在Unicode模式下才会被识别
注3:八进制转义(\数字)是有限制的,如果第一个数字是0,或者如果有3个八进制数字,那么就认为是八进制数;其他情况则被认为是子组引用;至于字符串,八进制转义总是最多只能是3个数字长度。
转载于:https://www.cnblogs.com/fengjunjie-w/p/7542939.html