Python正则运算符优先级re.findall('(.)',"abc")、re.findall('(.)',"abc")、re.findall('(.?)*',"abc")的执行结果的影响分析

425 阅读 0 评论 281 点赞

我是靠谱客的博主着急网络，这篇文章主要介绍Python正则运算符优先级re.findall('(.)*',"abc")、re.findall('(.*)',"abc")、re.findall('(.?)*',"abc")的执行结果的影响分析，现在分享给大家，希望可以做个参考。

我们分别执行三个语句：

>>> re.findall('(.)*',"abc")
['c', '']
>>> re.findall('(.*)',"abc")
['abc', '']
>>> re.findall('(.?)*',"abc")
['', '']
>>>

可以看到三个执行结果完全不同，为什么会这样呢？老猿才开始没弄明白。我们使用《妙用re.sub分析正则表达式解析匹配过程》介绍的方法parsematch来分析一下这三个匹配语句：

>>> parsematch('(.)*',"abc")
第1次匹配，匹配情况:
匹配子串group(0): abc,位置为：(0, 3)
匹配子串group(1): c,位置为：(2, 3)
第2次匹配,m.lastindex=None，匹配情况:
匹配子串group(0): ,位置为：(3, 3)
可以看到“(.)*”是每次匹配一个字母，再重复匹配过程直到匹配不到字母前停止，所以最后匹配结果是字符“c”，在“c”之后是空字符串，由于*的原因也会匹配成功。
>>> parsematch('(.*)',"abc")
第1次匹配，匹配情况:
匹配子串group(0): abc,位置为：(0, 3)
匹配子串group(1): abc,位置为：(0, 3)
第2次匹配，匹配情况:
匹配子串group(0): ,位置为：(3, 3)
匹配子串group(1): ,位置为：(3, 3)

可以看到“(.*)”是第一次匹配是匹配所有字符"abc"，匹配到搜索文本结束，第二次匹配空字符串也是匹配成功。

>>> parsematch('(.?)*',"abc")
第1次匹配，匹配情况:
匹配子串group(0): abc,位置为：(0, 3)
匹配子串group(1): ,位置为：(3, 3)
第2次匹配，匹配情况:
匹配子串group(0): ,位置为：(3, 3)
匹配子串group(1): ,位置为：(3, 3)
>>>

可以看到“(.?)*”是每次匹配0-1个字符，再执行星号指定的重复匹配过程直到匹配到“c”之后，由于“abc”[3:3]也能匹配成功，因此最后匹配结果是空串。
第2次匹配“c”之后的空串开始，也是匹配成功，因此又会匹配到空串。

这是parsematch解析的匹配过程，但为什么会这样呢？这是由于匹配过程的优先级决定的，由于括号优先级高于“*”,因此匹配时先优先执行括号内的正则表达式匹配，括号内正则表达式匹配完之后再执行括号外的正则表达式的匹配。所以这三个才会有不同的处理结果。
其实关于正则表达式优先级的事情老猿才开始没有意识到，正是由于这三个语句的执行结果不同才引发了老猿的关注，最终补充了正则表达式优先级的知识章节。

本节相关知识：