正则表达式匹配入门 – wiki基地


揭开模式匹配的面纱:正则表达式入门详解

欢迎来到正则表达式(Regular Expression,简称 Regex 或 RE)的世界!如果你曾经需要从大量文本中查找特定的信息、验证数据的格式、或者替换掉不想要的字符串,那么你一定遇到过手工处理的低效与繁琐。正则表达式就是解决这些问题的强大工具。它是一种用来描述字符串模式的语言,就像一个微型的编程语言,让你能够以极其灵活和高效的方式处理文本。

想象一下,你不再需要编写冗长的代码来逐个字符地检查一个邮箱地址是否有效,或者从一篇长文章中提取所有的电话号码。通过正则表达式,你可以用一行简洁的“模式”,就完成这些复杂的任务。它被广泛应用于编程语言(Python, Java, JavaScript, PHP等)、文本编辑器(VS Code, Sublime Text, Vim等)、命令行工具(grep, sed, awk)以及数据库等众多领域。

虽然初看起来,正则表达式的语法可能有些晦涩,充满了各种符号,但一旦掌握了它的基本原理和常用语法,你会发现它极大地提升你的文本处理能力。

这篇长文将带你从零开始,一步步揭开正则表达式的神秘面纱,详细讲解其核心概念和常用语法,并通过丰富的示例帮助你理解和实践。我们将从最简单的匹配开始,逐步深入,让你能够构建和理解更复杂的模式。

准备好了吗?让我们开始这场模式匹配的奇妙旅程!

第一站:什么是正则表达式?为什么它如此重要?

简单来说,正则表达式就是一种用于描述字符串模式的“公式”或“模板”。它不是用来匹配某个具体的字符串,而是用来匹配符合某种规则的字符串集合。

为什么重要?

  1. 强大的搜索与查找: 能够根据复杂的模式在大量文本中快速找到目标。比如查找所有以特定字母开头、特定字母结尾的单词。
  2. 灵活的验证与校验: 检查输入的数据是否符合预期的格式。这是表单验证、数据清洗等场景的核心技术。比如验证邮箱、手机号、URL、IP地址等。
  3. 高效的替换与修改: 结合查找功能,可以轻松地将符合模式的文本替换为其他内容。比如批量修改文件中的特定格式日期。
  4. 简洁与表达力: 相较于传统的字符串处理代码,正则表达式通常更加简洁,能够清晰地表达复杂的匹配逻辑。

学习正则表达式,就像掌握了一门新的语言,能够让你与文本进行更高级的“对话”。

第二站:基本匹配 – 字面字符与特殊字符

最简单的正则表达式就是由字面字符组成,它只能精确匹配这些字符本身。

1. 字面字符 (Literal Characters)

大多数字符在正则表达式中都代表它们自己,直接匹配输入文本中相同的字符序列。

示例:
* 正则表达式:cat
* 匹配文本:The cat sat on the mat. -> 匹配到 cat

这很简单,就像我们在文本编辑器中进行普通的查找。

2. 特殊字符 (Metacharacters)

正则表达式之所以强大,是因为它引入了一些具有特殊含义的字符,称为“元字符”或“特殊字符”。这些字符不代表其本身的字面意义,而是用来描述匹配规则。

我们将逐步介绍最重要的特殊字符:

2.1 点号 .:匹配任意单个字符(除了换行符)

点号 . 是一个非常常用的特殊字符。它能够匹配除了换行符(\n)之外的任意一个字符。

示例:
* 正则表达式:a.b
* 匹配文本:acb, aEb, a b, a-b -> 都能匹配到
* 匹配文本:ab -> 无法匹配,因为需要一个字符在 ab 之间
* 匹配文本:axxb -> 无法匹配,因为 . 只能匹配一个字符

点号是实现模糊匹配的基础。

2.2 反斜杠 \:转义特殊字符

有些时候,我们想要匹配的恰好是那些具有特殊含义的字符本身,比如点号 ., 星号 *, 问号 ? 等。这时,我们就需要使用反斜杠 \ 来“转义”它们,告诉正则表达式引擎,这个字符就是它字面的意思,没有特殊含义。

示例:
* 如果你想匹配字符串 “www.baidu.com”,直接写 www.baidu.com 是不对的,因为 . 会匹配任意字符。
* 正确的正则表达式是:www\.baidu\.com
* 这里的 \. 就表示匹配字面上的点号。

需要转义的常见特殊字符包括:., *, +, ?, ^, $, (, ), [, ], {, }, |, \.

第三站:重复匹配 – 量词 (Quantifiers)

到目前为止,我们只能匹配固定次数的字符(字面字符或 .)。但很多时候,我们想要匹配某个字符或模式出现“一次或多次”,“零次或多次”,或者“特定次数”。这就是量词的作用。

量词总是跟在它想要作用的字符或模式后面。

3.1 星号 *:匹配零次或多次

星号 * 匹配前面的元素出现零次或任意多次。

示例:
* 正则表达式:a*b
* 匹配文本:b -> 匹配到 b (a 出现零次)
* 匹配文本:ab -> 匹配到 ab (a 出现一次)
* 匹配文本:aaab -> 匹配到 aaab (a 出现三次)
* 匹配文本:cdefb -> 匹配到 b (a 出现零次)
* 匹配文本:caaaad -> 无法匹配,因为 b 必须存在

3.2 加号 +:匹配一次或多次

加号 + 匹配前面的元素出现一次或任意多次。它与 * 的区别在于,+ 要求前面的元素至少出现一次。

示例:
* 正则表达式:a+b
* 匹配文本:ab -> 匹配到 ab (a 出现一次)
* 匹配文本:aaab -> 匹配到 aaab (a 出现三次)
* 匹配文本:b -> 无法匹配 (a 没有出现)

3.3 问号 ?:匹配零次或一次

问号 ? 匹配前面的元素出现零次或一次。常用于匹配可选的字符。

示例:
* 正则表达式:colou?r
* 匹配文本:color -> 匹配到 color (u 出现零次)
* 匹配文本:colour -> 匹配到 colour (u 出现一次)
* 匹配文本:coloor -> 无法匹配 (o 出现多次)

3.4 花括号 {}:匹配特定次数

花括号 {} 提供了更精确的次数控制:

  • {n}:精确匹配前面的元素出现 n 次。
  • {n,}:匹配前面的元素至少出现 n 次(n 次或更多次)。
  • {n,m}:匹配前面的元素出现 n 到 m 次(包含 n 和 m)。

示例:
* 正则表达式:a{3}b
* 匹配 aaab,不匹配 aabaaaab
* 正则表达式:a{2,}b
* 匹配 aab, aaab, aaaab 等等,但不匹配 abb
* 正则表达式:a{1,3}b
* 匹配 ab, aab, aaab,但不匹配 baaaab

量词的组合使用非常灵活,能够描述各种重复模式。

第四站:字符集合 []:匹配指定集合中的任意一个字符

方括号 [] 用于定义一个字符集合。它能够匹配该集合中包含的任意一个字符。

示例:
* 正则表达式:[aeiou]
* 匹配任意一个元音字母。
* 正则表达式:[0123456789]
* 匹配任意一个数字。
* 正则表达式:[abc]
* 匹配 abc

使用连字符 - 定义范围:

[] 内部,可以使用连字符 - 来表示一个字符范围。

示例:
* [0-9]:等同于 [0123456789],匹配任意一个数字。
* [a-z]:匹配任意一个小写英文字母。
* [A-Z]:匹配任意一个大写英文字母。
* [a-zA-Z]:匹配任意一个英文字母(大小写均可)。
* [0-9a-fA-F]:匹配任意一个十六进制数字(包含大小写字母 A-F)。

需要注意的 [] 内的特殊字符:

  • ^[]开头表示取反(见下一节)。
  • -[]中间表示范围。如果想匹配字面上的 -,可以把它放在开头、结尾或使用转义 \-
  • ] 如果想匹配字面上的 ],需要放在开头或使用转义 \]
  • \[] 内仍然是转义符。

4.1 取反字符集 [^]:匹配不在指定集合中的任意一个字符

如果在字符集的开头使用脱字符 ^,它表示匹配不在该集合中的任意一个字符。

示例:
* 正则表达式:[^0-9]
* 匹配任意一个数字字符。
* 正则表达式:[^aeiou]
* 匹配任意一个元音字母的字符。
* 正则表达式:[^a-zA-Z0-9]
* 匹配任意一个既不是字母也不是数字的字符。

第五站:位置匹配 – 锚点 (Anchors)

前面我们学习的都是匹配具体的字符或字符模式。但有时候,我们需要匹配的是文本中的特定“位置”,而不是字符本身。锚点就是用来标记这些位置的特殊字符。

5.1 脱字符 ^:匹配字符串的开头

脱字符 ^ 在正则表达式的开头(或者在多行模式下匹配每一行的开头)表示匹配字符串的开始位置

示例:
* 正则表达式:^Hello
* 匹配以 “Hello” 开头的字符串。
* 匹配文本:Hello World -> 匹配到 Hello
* 匹配文本:Say Hello -> 无法匹配

注意: ^[] 内部和外部的含义是完全不同的。在 [] 外部的开头表示匹配字符串开头,在 [] 内部的开头表示取反。

5.2 美元符号 $:匹配字符串的结尾

美元符号 $ 表示匹配字符串的结束位置(或者在多行模式下匹配每一行的结尾)。

示例:
* 正则表达式:World$
* 匹配以 “World” 结尾的字符串。
* 匹配文本:Hello World -> 匹配到 World
* 匹配文本:World is good -> 无法匹配

5.3 单词边界 \b

\b 是一个非常有用的锚点,它匹配一个“单词边界”。单词边界是指一个“单词字符”(word character)和一个“非单词字符”(non-word character)之间的位置,或者字符串的开始/结束位置与一个单词字符之间的位置。

  • 单词字符 \w 通常指字母、数字和下划线 ([a-zA-Z0-9_])。
  • 非单词字符 \W 除了单词字符之外的所有字符。

\b 匹配的是位置,不是实际的字符。它用来确保你匹配的是一个完整的单词,而不是单词的一部分。

示例:
* 正则表达式:\bcat\b
* 匹配文本:The cat sat on the mat. -> 匹配到 cat
* 匹配文本:category -> 不匹配,因为 “cat” 后面是 e (一个单词字符),不是边界。
* 匹配文本:cats -> 不匹配,因为 “cat” 后面是 s (一个单词字符)。
* 匹配文本:_cat_ -> 匹配到 cat (下划线是单词字符,所以边界在下划线外部)

5.4 非单词边界 \B

\B 匹配一个非单词边界的位置。它与 \b 的含义相反。用来确保你匹配的模式不是一个完整的单词。

示例:
* 正则表达式:\Bcat\B
* 匹配文本:category -> 匹配到 cat
* 匹配文本:The cat sat on the mat. -> 不匹配
* 匹配文本:broadcast -> 匹配到 cat

第六站:预定义字符类 (Shorthand Character Classes)

正则表达式提供了一些方便的预定义字符类,它们是常用字符集的简写形式。

  • \d:匹配任意一个数字字符,等同于 [0-9]
  • \D:匹配任意一个非数字字符,等同于 [^0-9]
  • \w:匹配任意一个“单词字符”(字母、数字或下划线),等同于 [a-zA-Z0-9_]
  • \W:匹配任意一个非单词字符,等同于 [^a-zA-Z0-9_]
  • \s:匹配任意一个空白字符(空格、制表符、换行符等),通常包括 [ \t\r\n\f\v]
  • \S:匹配任意一个非空白字符,等同于 [^ \t\r\n\f\v]

这些预定义字符类结合量词使用,可以非常方便地匹配常见的模式。

示例:
* 匹配电话号码(简化版,例如 11 位数字):\d{11}
* 匹配一个或多个单词字符:\w+
* 匹配任意非空白字符:\S
* 匹配一个或多个空白字符:\s+

第七站:分组与捕获 ()

圆括号 () 在正则表达式中有两个主要作用:

  1. 分组: 将多个字符或模式视为一个整体,以便对其应用量词或进行其他操作。
  2. 捕获: 捕获匹配到的子字符串,方便后续提取或引用。

7.1 分组的应用

示例:
* 如果你想匹配重复的字符串 “ab” 三次,不能写 ab{3} (这只会匹配 “abbb”)。
* 你应该使用分组:(ab){3}
* 这会匹配 ababab

  • 匹配 IP 地址的四个数字块(简化):\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}。这里每个 \d{1,3} 匹配 1到3个数字,(ab) 就是将 ab 作为一个整体。

7.2 捕获组

当使用 () 进行分组时,默认情况下它会创建一个“捕获组”。这意味着正则表达式引擎会记住该组匹配到的实际文本。你可以在匹配后提取这些捕获到的子串(取决于使用的工具或编程语言),也可以在同一个正则表达式中通过“反向引用”来引用之前捕获的内容。

反向引用 (Backreferences): \1, \2, \3… 分别引用第一个、第二个、第三个等捕获组匹配到的内容。

示例:
* 匹配重复出现的单词:(\w+)\s+\1
* (\w+) 匹配一个或多个单词字符并将其捕获到第一个组 (\1)。
* \s+ 匹配一个或多个空白字符。
* \1 引用第一个捕获组的内容。
* 匹配文本:hello hello -> 匹配到 hello hello
* 匹配文本:world world -> 匹配到 world world
* 匹配文本:hello world -> 不匹配

7.3 非捕获组 (?:)

有时候我们只需要分组的功能,但不需要捕获匹配到的内容,以提高效率或避免创建不必要的捕获组。这时可以使用非捕获组 (?:...)

示例:
* 匹配 “cat” 或 “dog” 后面跟着 “s”:(?:cat|dog)s
* (?:cat|dog) 分组了 “cat” 和 “dog” 的选择,但不会捕获 “cat” 或 “dog”。
* 后面的 s 应用于整个分组。
* 匹配 catsdogs

使用非捕获组是一个良好的实践,特别是当你不关心捕获的内容时。

第八站:选择与分支 |

竖线 | 用作“或”操作符,允许你匹配多个可能的模式之一。

示例:
* 正则表达式:cat|dog|mouse
* 匹配文本中的 “cat” 或 “dog” 或 “mouse”。

当与分组 () 结合使用时,| 可以限制选择的范围。

示例:
* 正则表达式:(cat|dog) food
* 匹配 “cat food” 或 “dog food”。
* 如果不使用分组,cat|dog food 会匹配 “cat” 或者 “dog food”。

第九站:贪婪与惰性匹配 (Greedy vs. Lazy)

量词 (*, +, ?, {}) 默认是“贪婪的”(Greedy)。这意味着它们会尽量匹配最长的可能字符串。

示例:
* 正则表达式:<.*>
* 匹配文本:This is a **<bold>** example. **</bold>**
* 如果使用贪婪匹配,它会从第一个 < 匹配到最后一个 >,匹配结果是:<bold>** example. **</bold>

有时候,我们想要匹配最短的可能字符串。这时可以使用问号 ? 放在量词后面,使其变为“惰性”(Lazy)或“非贪婪”模式。

  • *?:匹配零次或多次,但尽可能少。
  • +?:匹配一次或多次,但尽可能少。
  • ??:匹配零次或一次,但尽可能少。
  • {n,m}?:匹配 n 到 m 次,但尽可能少。
  • {n,}?:匹配至少 n 次,但尽可能少。

示例:
* 正则表达式:<.*?>
* 匹配文本:This is a **<bold>** example. **</bold>**
* 使用惰性匹配,它会匹配两个独立的标签:<bold></bold>

理解贪婪与惰性是处理某些模式(如 HTML/XML 标签)的关键。

第十站:实际应用示例

让我们结合前面学到的知识,看一些更贴近实际的例子。

示例 1:简单的邮箱格式验证(简化版)

一个非常简化的邮箱格式:用户名@域名.com,其中用户名和域名由字母、数字组成。

  • 正则表达式:^[a-zA-Z0-9]+@[a-zA-Z0-9]+\.com$
    • ^:匹配开头。
    • [a-zA-Z0-9]+:匹配一个或多个字母或数字作为用户名。
    • @:匹配字面上的 @ 符号。
    • [a-zA-Z0-9]+:匹配一个或多个字母或数字作为域名。
    • \.:匹配字面上的点号。
    • com:匹配字面上的 “com”。
    • $:匹配结尾。

这个模式只能匹配非常简单的 .com 邮箱,真实的邮箱格式非常复杂,需要更复杂的正则表达式,甚至不推荐完全用正则来验证所有合规邮箱。但这个例子展示了如何结合字符集、量词和锚点。

示例 2:提取日期(格式 YYYY-MM-DD)

假设我们想从文本中找到所有 YYYY-MM-DD 格式的日期。

  • 正则表达式:\d{4}-\d{2}-\d{2}
    • \d{4}:匹配四位数字(年份)。
    • -:匹配字面上的连字符。
    • \d{2}:匹配两位数字(月份)。
    • -:匹配字面上的连字符。
    • \d{2}:匹配两位数字(日期)。

如果我们想捕获年、月、日分别提取出来:

  • 正则表达式:(\d{4})-(\d{2})-(\d{2})
    • 这里使用了三个捕获组,分别捕获年份、月份和日期。

示例 3:查找 HTML 中的链接 <a> 标签及其 href 属性

假设我们想找到 <a href="..."> 这样的标签,并提取 href 的值。

  • 正则表达式(简化版,不考虑复杂情况):<a.*?href="(.*?)".*?>
    • <a:匹配字面上的 <a
    • .*?:惰性匹配任意字符,直到遇到下一个模式。
    • href=":匹配字面上的 href="
    • (.*?):捕获组 1,惰性匹配 href 属性的值(引号之间的内容)。
    • ":匹配字面上的结束引号。
    • .*?:惰性匹配 href 属性之后到标签结束之间任意内容。
    • >:匹配字面上的 >

这个例子结合了字面匹配、点号、量词(惰性)、分组和捕获。

示例 4:替换文本中的手机号码(格式 xxx-xxx-xxxx)

假设我们想把所有 xxx-xxx-xxxx 格式的手机号替换成 [已屏蔽]

  • 查找模式:\d{3}-\d{3}-\d{4}
  • 替换内容:[已屏蔽]

这通常是在编程语言或文本编辑器中配合正则表达式的替换功能来实现。

这些示例展示了正则表达式在数据提取、验证和替换方面的强大能力。当然,实际应用中的模式会更加复杂,但它们都是基于我们前面讲解的基本元素构建起来的。

第十一站:进一步学习与实践资源

入门只是第一步,正则表达式的世界还有很多值得探索的地方。

  • 更高级的概念: 前向查找 (Lookahead)、后向查找 (Lookbehind)、原子组 (Atomic Grouping)、条件匹配等。这些可以帮助你构建更精确、更高效的模式。
  • 正则表达式引擎的差异: 不同的工具和编程语言可能使用不同的正则表达式引擎(如 PCRE, NFA, DFA),它们在语法支持、性能和行为上可能略有差异。了解你所使用的环境非常重要。
  • 工具:
    • 在线正则表达式测试器: 这是学习和调试正则表达式的最佳工具。推荐使用 Regex101 (regex101.com) 或 RegExr (regexr.com)。它们提供了详细的解释、匹配过程可视化和备忘单。
    • 文本编辑器和 IDE: 大多数现代文本编辑器和集成开发环境都内置了强大的正则表达式搜索和替换功能。
    • 命令行工具: grep (搜索), sed (流编辑器,常用于替换), awk (文本处理) 是在 Linux/Unix 环境下处理文本的利器,它们都支持正则表达式。
  • 文档与教程:
    • 查找你使用的编程语言或工具的官方正则表达式文档。
    • 有很多优秀的在线教程和书籍深入讲解正则表达式。

实践是掌握正则表达式的关键!

从简单的模式开始,在在线测试器上反复练习。尝试解决一些常见的文本处理问题,比如:
* 从一段文字中提取所有的 URL。
* 验证用户输入的密码是否包含大小写字母、数字和特殊字符。
* 查找并替换文本中的特定格式日期。
* 解析日志文件中的特定信息。

总结

恭喜你完成了正则表达式的入门学习!我们一起探索了:

  • 字面字符特殊字符(元字符) 的区别。
  • . 匹配任意单个字符。
  • \ 用于转义特殊字符。
  • 量词 (*, +, ?, {}) 控制匹配次数。
  • 字符集 ([]) 匹配指定范围或集合中的一个字符。
  • [^] 匹配不在指定集合中的字符。
  • 锚点 (^, $, \b, \B) 匹配文本中的位置。
  • 预定义字符类 (\d, \D, \w, \W, \s, \S) 作为常用字符集的简写。
  • 分组与捕获 (()) 以及 非捕获组 ((?:))。
  • 选择与分支 (|) 实现“或”逻辑。
  • 贪婪与惰性 匹配的区别 (*, +, ? vs *?, +?, ??).
  • 通过实际示例了解了正则表达式的应用场景。

正则表达式是一项非常有价值的技能,无论你是开发者、数据分析师、系统管理员,还是只是需要频繁处理文本的普通用户。虽然其语法初看令人望而生畏,但其背后的逻辑是清晰且强大的。

记住,学习正则表达式没有捷径,唯一的秘诀就是——练习! 多写、多练、多调试,你会越来越熟练,直到能够自如地运用它来解决各种文本处理难题。

希望这篇详细的入门文章能够为你打开正则表达式的大门,祝你在模式匹配的世界里探索愉快!


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部