Python3正则表达式——小白初学!最完整的教程没有之一!

Python3正则表达式——小白初学!最完整的教程没有之一!

2.正则表达式是什么

这种查找替换的功能就类似于正则表达式。

正则表达式,实际上是一个字符串,通过给定一个正则表达式和另一个字符串,我们可以达到如下的目的:①. 给定的字符串是否可以和正则表达式符合。②. 可以通过正则表达式,从字符串中获取我们想要的特定部分。

正则表达式是字符串处理的有力工具,但是并不是Python独有的,其他语言也有。

下面我们就开始从基本语法开始学习正则表达式

正则表达式语法

1.基础知识-元字符

元字符

有一些字符比较特殊,它们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符我们称之为元字符。

原始字符串

在字符串前面加上字母r或R表示原始字符串,所有的字符都是原始的本义而不会进行任何转义。这个功能的实现就很像正则表达式了

2.常用元字符

2.1匹配不定长的字符集

① “.”:

表示除换行符以外的任意字符。

与“.”类似(但不相同)的一个符号是“\S”,表示不是空白符的任意字符。

代码如下(示例):

import re

s=’hi,i am a student.my name is Tom’

print(re.findall(r’.’,s))12

运行结果

[‘h’, ‘i’, ‘,’, ‘i’, ‘ ‘, ‘a’, ‘m’, ‘ ‘, ‘a’, ‘ ‘, ‘s’, ‘t’, ‘u’, ‘d’, ‘e’, ‘n’, ‘t’, ‘.’, ‘m’, ‘y’, ‘ ‘, ‘n’, ‘a’, ‘m’, ‘e’, ‘ ‘, ‘i’, ‘s’, ‘ ‘, ‘T’, ‘o’, ‘m’]

② ” / “

反斜杠后面可以加不同的字符表示不同的特殊意义

“^”表示补集,匹配不在区间范围内的字符,

例如:[^3]表示除3以外的字符。

Python3正则表达式——小白初学!最完整的教程没有之一!

也可以用于取消所有的元字符:

这些特殊字符都可以包含在[]中.

③ “^”:

匹配行首,匹配以^后面的字符开头的字符串

代码如下(示例):

import re

s=’helloTom BabyhelloMary helo’

print(re.findall(r’hello’,s))

运行结果

[‘hello’, ‘hello’]

④ “$”:

匹配行尾,匹配以它之前的字符结束的字符串

代码如下(示例):

s=’helloTom BabyhelloMary helo’

print(re.findall(r’lo’,s))

运行结果

[‘lo’, ‘lo’, ‘lo’]

⑤ “[ ]”:

常用来指定一个字符集,例如:[abc]、[a-z]、[0-9];

元字符在方括号中不起作用,例如:[akm$]和[m.]中元字符都不起作用.

代码如下(示例):

s=’abc acd abc’

print(re.findall(r’a[bc]\D*’,s))

print(re.findall(r’a[^b]’,s))

运行结果

[‘abc acd abc’]

[‘ac’]

2.2指定重复次数的字符

① “*”:

匹配位于*之前的字符或子模式的0次或多次出现

代码如下(示例):

s=’aab abb abbbb b a’

print(re.findall(r’ab*’,s))1

运行结果

[‘a’, ‘ab’, ‘abb’, ‘abbbb’, ‘a’]

② “+”:

匹配位于+之前的字符或子模式的1次或多次出现

代码如下(示例):

s=’aab abb abbbb b a’

print(re.findall(r’ab+’,s))

12

运行结果

[‘ab’, ‘abb’, ‘abbbb’]

③ “?”:

匹配位于?之前的0个或1个字符

当“?”紧随其他限定符(*、+、{n}、{n,}、{n,m})之后时,匹配模式是“非贪心的”。

“非贪心的”模式匹配搜索到尽可能短的字符串,而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。

代码如下(示例):

s=’a ab abbbbb abbbbbxa’

print(re.findall(r’ab+’,s))

print(re.findall(r’ab+?’,s))12

运行结果

[‘ab’, ‘abbbbb’, ‘abbbbb’]

[‘ab’, ‘ab’, ‘ab’]1

④ “{m,n}”

表示至少有m个重复,至多有n个重复。

m,n均为十进制数。

忽略m表示0个重复,忽略n表示无穷多个重复。

代码如下(示例):

s1=’12345 123567′

s2=’a b baaa baaaa’

print(re.findall(r’123\d{2}’,s1))

print(re.findall(r’a{1,3}’,s2))

1234

运行结果

[‘12345’, ‘12356’]

[‘a’, ‘aaa’, ‘aaa’, ‘a’]1

re模块中常量

re.IGNORECASE 简写re.l

作用:大小写忽略匹配

re.ASCII 简写 re.A

作用:让\w,\b,\d…只匹配ASCII,而不是Unicode

re.DOTALL 简写 re.S

作用:匹配所有,包括\n

re.MULTILINE 简写 re.M

作用:多行模式,当某字符串中有换行符\n,默认模式下是不 支持换行符特性的,比如:行开头 和 行结尾,而多行模式下是支持匹配行开头的

re.VERBOSE 简写 re.X

作用:在正则表达式中加注解

简单给出一个例子

更多详细可以参考python正则表达式中re模块常量用法简介

re模块中常用函数

1.字符串匹配

re模块提供了正则表达式操作所需要的功能

1.1match( )

re.match(pattern,string[,flags])

从首字母开始开始匹配,string如果包含pattern子串,则匹配成功,返回Match对象;失败则返回None

代码如下(示例):

import re

print(re.match(r’How’,’How are you’))1

运行结果

<re.Match object; span=(0, 3), match=’How’>

1.2search( )

re.search(pattern,string[,flags])

将字符串的所有子串尝试与正则表达式匹配,

如果所有的字串都没有匹配成功,返回none,否则返回Match对象。

注意:多个子串,只返回第一个

代码如下(示例):

s1=’ahello’

s2=’bahello world hello’

print(re.match(s1,s2))

print(re.search(s1,s2))123

运行结果

None

<re.Match object; span=(1, 7), match=’ahello’>1

1.3 findall( )

re.findall(pattern,string[,flags])

列表的形式返回所有能匹配的子串,如果没有找到匹配的,则返回空列表。

代码如下(示例):

s3=r’abc’

print(re.findall(s3,’aabaab’))

print(re.findall(s3,’aabcaabc’))12

运行结果

[]

[‘abc’, ‘abc’]1

1.4 finditer( )

re.finditer(pattern, string[, flags])

返回string中所有与pattern相匹配的全部字串,返回形式为Match对象的迭代器。

1.5小结

1.我们会发现对于findall()函数返回的是一个列表,

而match()和search()函数,直接打印输出的结果很多。因此匹配对象的方法只适用于match,search,findier,而不适合findall。

2.例如它就是函数返回的match对象,但是我们想要得到的只是最后一个结果match=‘abcde’,接下来我们会学习匹配对象的方法来解决这个

1.6目标串返回

在正则表达式中使用()用来分组。group()用来提出分组截获的字符串。

group() 同group(0)就是匹配正则表达式整体结果;

group(1) 返回第1个括号匹配部分;

group(2) 列出第2个括号匹配部分;

group(3) 列出第3个括号匹配部分;

代码如下(示例):

a=”123abc456″

print(re.search(“([0-9]*)([a-z]*)([0-9]*)”,a).group())

print(re.search(“([0-9]*)([a-z]*)([0-9]*)”,a).group(0))

print(re.search(“([0-9]*)([a-z]*)([0-9]*)”,a).group(1))

print(re.search(“([0-9]*)([a-z]*)([0-9]*)”,a).group(2))

print(re.search(“([0-9]*)([a-z]*)([0-9]*)”,a).group(3))12345

运行结果

123abc456

123abc456

123

abc

4561234

2.字符串替换——re.sub

re.sub(pattern, repl, string[, count])

使用repl替换string中每一个匹配的子串后返回替换后的字符串。

当repl是一个字符串时,可以使用\id或\g、\g引用分组,但不能使用编号0;当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。

count用于指定最多替换次数,默认全部替换。

代码如下(示例):

s1=”she is a girl. she likes apples”

result = re.sub(‘she’,’he’,s1,1)

print(result)12

运行结果

he is a girl. she likes apples

3.字符串拆分——re.split()

re.split(pattern,string,maxsplit)

maxsplit指定最大分割次数,不指定将全部分割。返回根据匹配到的子串将字符串分割成列表

代码如下(示例):

result = re.split(‘\d+’,’a111b222c33′)

print (result)1

db = ‘2020-10-121 23:23:23’

result = re.split(“\W+”,db)

print (result)12

运行结果

[‘a’, ‘b’, ‘c’, ”]

[‘2020′, ’10’, ‘121’, ’23’, ’23’, ’23’]

正则表达式对象

1.compile()函数

compile(pattern,[,flags]

compile()函数 编译正则表达式(以字符串书写的)pattern,转换为模式对象然后返回一个正则表达式对象。不同于re.method()这种模式,使用预编译的代码对象比直接使用字符串要快,因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象。

用正则表达式对象获取匹配子串

2.字符串匹配

Pattern.match(string[, pos[, endpos]])

Pattern.search(string[, pos[, endpos]])

Pattern.findall(string[, pos[, endpos]])

可选参数 endpos 限定了字符串搜索的结束;它假定字符串长度到 endpos , 所以只有从 pos 到

endpos – 1 的字符会被匹配。如果 endpos 小于 pos,就不会有匹配产生;

如果 string 的 开始位置 能够找到这个正则样式的匹配,就返回一个相应的 匹配对象。如果不匹配,就返回 None ;

代码如下(示例):

s1=’abcde abcdef bcde’

pattern = re.compile(r’\w*bcd\w*’)

result = pattern.match(s1)

print(result.group())123

运行结果

abcde

2.字符串替换

Pattern.sub(repl, string, count=0)

等价于 sub() 函数,使用了编译后的样式

代码如下(示例):

s1=’abcde abcdef bcde’

pattern = re.compile(r’\s+’)

result = pattern.sub(‘-‘,s1,3)

print(result)123

运行结果

abcde-abcdef-bcde

3.字符串分割

Pattern.split(string, maxsplit=0)

代码如下(示例):

s1=’a1b2c3d4ee5′

pattern = re.compile(r’\d+’)

result1 = pattern.split(s1)

result2 = pattern.split(s1,3)

#只分割三次,后面不分割

print(result1)

print(result2)123456

运行结果

[‘a’, ‘b’, ‘c’, ‘d’, ‘ee’, ”]

[‘a’, ‘b’, ‘c’, ‘d4ee5’]1

4.小结

在re模块的函数中的函数 compile函数 ,这个函数可以预编译返回一个正则对象,此正则对象拥有与re模块相同的函数。

那到底该用re模块 还是 正则对象Pattern ?

官方文档推荐:在多次使用某个正则表达式时推荐使用正则对象Pattern 以增加复用性,因为通过 re.compile(pattern) 编译后的模块级函数会被缓存。

总结

路漫漫其修远兮,老师也说python正则表达式文化博大精深,我们也是需要掌握好常见的用法的。

以上即为我对python正则表达式的简要了解。

我在学习以及练习的过程中,真的意识到实践才能出真知!!!有疑惑就去实操!!!收获一定会有的!!!

更多视频教程完整代码获取点这里

文章均来自互联网如有不妥请联系作者删除QQ:314111741 地址:http://www.mqs.net/post/15642.html

相关阅读

  • 淘宝怎么运营推广(中小卖家必学的操作思路)

    淘宝怎么运营推广(中小卖家必学的操作思路)

    淘宝在很长一段时间内,一直被认为是中国最大的电子商务平台。人们在这里购物,与在别处购物一样,会感觉到很便捷、很实惠。因此,随着电商行业的发展。如今,淘宝网站的活跃用户数已经超过了1亿人(目前该数据仅统计了部分用户)。而作为一个淘宝...

    2025.12.09 14:15:37作者:iseeyuTags:运营
  • 如何保证缓存和数据的双写一致性

    如何保证缓存和数据的双写一致性

    image 但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存。又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前没有一篇全面的博客,对这几种方案进行解析。于是博主战战兢兢,顶着被大家喷的风险,写了这篇...

    2025.12.09 09:28:14作者:iseeyu
  • 【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    在百度输入SEO优化,下拉框就有很多关键词,SEO优化工具,SEO查询,SEO技巧,SEO优化方案,SEO报价,SEO优化教程,SEO优化软件,SEO优化怎么做,等等,相关搜索也有很多长尾关键词。还可以加入一些群,找些大牛问下,向这些大牛学...

    2025.12.09 07:37:38作者:iseeyu

添加新评论