正则匹配数字:零基础入门 – wiki基地


零基础入门:正则匹配数字的艺术

欢迎来到正则表达式的世界!听起来可能有点神秘,但别担心,它其实是一种非常强大且有趣的工具。今天,我们将聚焦于正则表达式的一个核心应用:匹配数字。无论你是想从一大段文字中提取所有数字,还是想验证用户输入的是否是合法的数字,正则表达式都能派上大用场。

这篇文章专为完全的零基础读者设计。我们将从最基本概念讲起,一步步深入,直到你能轻松构建匹配整数、小数、负数等各种数字的正则表达式。准备好了吗?让我们开始这场数字匹配之旅吧!

第一章:初识正则表达式——什么是“正则”?

想象一下,你手里有一本厚厚的书,你想找出里面所有提到“猫”这个词的句子。你会怎么做?通常你会一个字一个字地扫描。如果想找的是“猫”或者“狗”,你就需要扫描两遍,或者同时关注这两个词。

现在,想象你需要找出所有符合某种“模式”的文字——比如所有邮箱地址,所有电话号码,或者我们今天的目标:所有数字。手动扫描不仅效率低下,而且容易出错。这时候,正则表达式就闪亮登场了。

正则表达式 (Regular Expression),简称 Regex 或 Regexp,是一种用来描述或匹配一系列符合某个句法规则的字符串的模式。简单来说,它就是一种强大的文本模式匹配工具。你可以用它来:

  1. 查找 (Searching): 在文本中找到符合某个模式的字符串。
  2. 替换 (Replacing): 找到符合模式的字符串,并替换成其他内容。
  3. 验证 (Validating): 检查整个字符串是否符合某个模式(比如检查一个字符串是否是一个合法的手机号码格式)。
  4. 提取 (Extracting): 从复杂的文本中提取出你需要的部分数据(比如提取所有价格数字)。

在这篇文章中,我们将重点讲解如何利用正则表达式来“查找”和“验证”各种形式的数字。

那么,为什么我们需要用正则来匹配数字呢?因为数字有很多种形式!它可以是单个数字 5,可以是整数 123,可以是小数 3.14,可以是负数 -99,还可以是科学计数法表示的数 1.2e-3 (虽然我们本文主要聚焦前几种)。如果我们只是简单地查找字符 09,我们将很难处理好这些不同形式的数字,而正则表达式提供了一种简洁而强大的方式来定义这些数字的“模式”。

第二章:正则表达式的基础构建块——数字世界里的“字母”

学习任何语言都需要从字母和基本词汇开始。正则表达式也有自己的“字母”和“词汇”,它们叫做元字符 (Metacharacters)。元字符不是字面意思上的字符,而是具有特殊含义的符号。

为了匹配数字,我们首先需要认识几个最基础也是最重要的元字符和概念。

2.1 字面量字符 (Literal Characters)

最简单的匹配方式就是匹配字符本身。比如,正则表达式 /a/ 就会匹配字符串中的字母 a。正则表达式 /hello/ 就会匹配字符串中的 hello

对于数字来说,字面量字符就是 0, 1, 2, …, 9

  • 正则表达式 /5/ 会匹配字符串中的数字 5
  • 正则表达式 /123/ 会匹配字符串中的数字序列 123

但这只能匹配特定的数字序列,无法匹配“任意数字”或者“任意长度的数字”。这引出了我们的第一个重要的元字符。

2.2 \d:数字的通用代号

在正则表达式中,有一个专门的元字符用来代表“任意一个数字”(0 到 9)。它就是 \d

  • \d:匹配任何一个阿拉伯数字,等价于 [0-9]

为什么有了 0-9 的字面量范围表示,还需要 \d 呢?因为 \d 更简洁,而且在某些更复杂的场景下(比如Unicode数字),\d 可能有更广泛的含义(但这超出本文范围,入门阶段只需记住 \d 就是 0-9)。

例子:

  • 模式: /\d/
  • 字符串: "我今年18岁"
  • 匹配结果: 会匹配到 1,也会匹配到 8

  • 模式: /\d\d/

  • 字符串: "我的幸运数字是77"
  • 匹配结果: 会匹配到 77

\d 就像是数字世界的通配符,代表“这里有一个数字,具体是哪个不重要,只要是数字就行”。

2.3 量词 (Quantifiers):匹配“多少个”数字

光知道怎么匹配一个数字还不够。数字通常是由一个或多个数字组成的。这时候,我们就需要使用量词来指定一个模式重复出现的次数。

以下是几个最常用的量词:

  • +:一个或多个

    + 放在一个字符或模式后面,表示匹配前面的模式出现一次或多次。

    例子:
    * 模式: /\d+/
    * 字符串: "价格:123元"
    * 匹配结果: 会匹配到 123\d+ 找到了一个或多个连续的数字,即 1, 2, 3 组合在一起。

    • 字符串: "房间号:8A"
    • 匹配结果: 会匹配到 8。虽然 8 后面是字母 A,但 \d+ 至少匹配了一个数字 (8),满足条件。

    • 字符串: "没有数字"

    • 匹配结果: 没有匹配。因为字符串中没有任何数字,不满足 \d+ (至少一个数字) 的条件。

    \d+ 是匹配整数最常用的模式之一。

  • *:零个或多个

    * 放在一个字符或模式后面,表示匹配前面的模式出现零次或多次。

    例子:
    * 模式: /\d*/
    * 字符串: "价格:123元"
    * 匹配结果: 会匹配到 123。与 \d+ 类似,它找到了连续的数字。

    • 字符串: "房间号:8A"
    • 匹配结果: 会匹配到 8

    • 字符串: "没有数字"

    • 匹配结果: 会匹配到空字符串!这是 *+ 的一个重要区别。因为 * 允许前面的模式出现零次,所以在没有任何数字的地方,\d* 认为它匹配了一个长度为零的数字序列。这在某些场景下可能不是你想要的,需要小心使用。
  • ?:零个或一个

    ? 放在一个字符或模式后面,表示匹配前面的模式出现零次或一次。它常用来表示一个可选的部分。

    例子:
    * 模式: /-\d+/ (匹配前面带负号的数字)
    * 字符串: "-123"
    * 匹配结果: 匹配到 -123

    • 字符串: "123"
    • 匹配结果: 没有匹配。因为模式要求前面必须有一个字面量字符 -

    现在,如果我想匹配可能带负号的数字,也就是说,负号是可选的,就可以使用 ? 量词:

    • 模式: /-?\d+/
    • 字符串: "-123"
    • 匹配结果: 匹配到 -123
    • 字符串: "123"
    • 匹配结果: 匹配到 123。这里的 - 出现了零次,\d+ 匹配了 123

    -? 是匹配带符号数字的关键。

  • {n}:恰好 n 次

    {n} 放在一个字符或模式后面,表示匹配前面的模式恰好出现 n 次。

    例子:
    * 模式: /\d{4}/
    * 字符串: "年份:2023,日期:0801"
    * 匹配结果: 会匹配到 20230801

    • 字符串: "年份:23"
    • 匹配结果: 没有匹配。因为只有两个数字,不满足恰好 4 次的要求。
  • {n,}:至少 n 次

    {n,} 放在一个字符或模式后面,表示匹配前面的模式出现至少 n 次。

    例子:
    * 模式: /\d{3,}/
    * 字符串: "号码:12345,短号:678"
    * 匹配结果: 会匹配到 12345 (5次 >= 3次) 和 678 (3次 >= 3次)。

    • 字符串: "短号:67"
    • 匹配结果: 没有匹配。因为只有两个数字,不满足至少 3 次的要求。
  • {n,m}:至少 n 次,但不超过 m 次

    {n,m} 放在一个字符或模式后面,表示匹配前面的模式出现至少 n 次,但不超过 m 次。

    例子:
    * 模式: /\d{2,5}/ (匹配2到5位的数字)
    * 字符串: "编号:12,代码:345,序列:67890,ID:1"
    * 匹配结果: 会匹配到 12 (2次), 345 (3次), 67890 (5次)。
    * 字符串: ID:1 不匹配 (只有1次)。

通过 \d 和这些量词的组合,我们已经可以匹配各种长度的整数了,以及可选的负号。

第三章:匹配基本数字——从整数到带符号数

掌握了 \d 和量词后,我们开始构建匹配不同类型数字的模式。

3.1 匹配正整数

最简单的情况是匹配一个或多个连续的数字,也就是正整数。

  • 模式: /\d+/

    这个模式会匹配任何一个由一个或多个数字组成的序列。
    * 匹配 "123"
    * 匹配 "99"
    * 匹配 "0"
    * 匹配 "1234567890"
    * 在 "abc123xyz" 中匹配 "123"

3.2 匹配特定位数的正整数

如果你需要匹配固定位数的数字,比如一个4位数的年份或者6位数的验证码:

  • 模式: /\d{4}/ (匹配恰好4个数字)

    • 匹配 "2023"
    • 匹配 "0801"
    • 不匹配 "123"
    • 不匹配 "12345"

如果你需要匹配一个在某个范围内的位数(比如手机号码的11位):

  • 模式: /\d{11}/ (匹配恰好11个数字)

如果你需要匹配一个至少多少位数的数字:

  • 模式: /\d{6,}/ (匹配至少6个数字)

如果你需要匹配一个在某个位数范围内的数字:

  • 模式: /\d{2,4}/ (匹配2到4个数字)

3.3 匹配带可选正负号的整数

如前所述,要匹配可能带有负号 - 的整数,我们将负号标记为可选 ?,并放在数字序列 \d+ 前面。正号 + 通常不写出来,但在某些场景下可能出现。如果也想匹配带正号的,可以将符号部分变成 [+-]? ([+-] 表示匹配 +-)。

  • 模式: /-?\d+/ (匹配带可选负号的整数)

    • 匹配 "-123"
    • 匹配 "456"
    • 匹配 "-9"
    • 匹配 "0"
  • 模式: /[+-]?\d+/ (匹配带可选正负号的整数)

    • 匹配 "-123"
    • 匹配 "+456"
    • 匹配 "789"
    • 匹配 "-9"
    • 匹配 "+0"
    • 匹配 "0"

第四章:匹配更复杂的数字——小数的挑战

小数引入了一个新的字符:小数点 (.)。在正则表达式中,小数点 (.) 是一个非常重要的元字符,它代表匹配除换行符之外的任意单个字符

例子:
* 模式: /a.b/
* 字符串: "axb", "aab", "a?b", "aGb" 都能匹配成功。

所以,如果我们想匹配一个字面意思上的小数点,就不能直接写 .。我们需要对它进行转义 (Escaping),告诉正则表达式引擎:“嘿,这里我不是想匹配任意字符,我就是想匹配一个实实在在的点!”。转义的方式是在元字符前面加上反斜杠 \

  • \.:匹配字面意思上的小数点。

现在,我们来构建匹配小数的模式。一个典型的小数结构是:整数部分 + 小数点 + 小数部分

  • 整数部分:一个或多个数字 (\d+)
  • 小数点:字面量小数点 (\.)
  • 小数部分:一个或多个数字 (\d+)

将它们组合起来:

  • 模式: /\d+\.\d+/ (匹配“整数部分.小数部分”的形式,且两部分都至少有一个数字)

    • 匹配 "12.34"
    • 匹配 "0.5"
    • 匹配 "123.0"
    • 不匹配 "12" (没有小数点和小数部分)
    • 不匹配 ".34" (没有整数部分)
    • 不匹配 "12." (没有小数部分)

这个模式非常有用,但它不能匹配只有整数部分或者只有小数部分(如.5)的情况。很多时候,我们希望匹配的是“整数或小数”,或者“可能带小数部分的数字”。

4.1 匹配带可选小数部分的数字

要匹配一个数字,它可能有小数部分,也可能没有。这类似于我们之前处理可选负号的方式。我们将“小数点 + 小数部分”看作一个整体,并使其成为可选的部分。

要将“小数点 + 小数部分”视为一个整体,我们需要使用分组 (Grouping)。在正则表达式中,圆括号 () 用于创建分组。

  • (pattern):将 pattern 视为一个整体。

现在,我们将 \.\d+ 组合成一个小组 (\.\d+),表示“一个小数点后面跟着一个或多个数字”。然后,我们让这个小组成为可选的,使用 ? 量词:(\.\d+)?

最后,将它与前面的整数部分 \d+ 组合:

  • 模式: /\d+(\.\d+)?/ (匹配“一个或多个数字”后面可选地跟着“一个小数点和一或多个数字”)

    • 匹配 "123" ( (\.\d+)? 部分出现零次)
    • 匹配 "12.34" ( (\.\d+)? 部分出现一次,匹配 .34)
    • 匹配 "0"
    • 匹配 "0.5"
    • 匹配 "123."注意: 这个模式会匹配 "123." 中的 "123"。因为 \d+ 先匹配了 123,而可选的 (\.\d+)? 没有匹配到 .。这可能不是你想要的。如果希望匹配的是完整的数字,需要使用后面会介绍的锚点单词边界

4.2 匹配包含各种情况的小数(带可选符号和可选小数部分)

考虑更全面的数字格式:带可选正负号,整数部分,可选的小数部分(可能只有小数部分,如 .5)。

一个比较健壮的模式来匹配常见的整数或小数形式(如 123, -45, 1.23, -0.5, .78, -.1):

这需要使用或 (OR) 操作符 || 匹配它左边的模式或右边的模式。

我们可以将模式分为两类,用 | 连接:
1. 带可选符号,后面跟着至少一个数字,可选地跟着小数点和至少一个数字 ([+-]?\d+(\.\d+)?)
2. 带可选符号,后面跟着小数点和至少一个数字(为了匹配 .5 这种形式,但又避免只匹配 .)([+-]?\.\d+)

组合起来就是:/[+-]?\d+(\.\d+)?|[+-]?\.\d+/

这个模式有点复杂,我们拆解一下:

  • [+-]?:可选的正号或负号。
  • \d+(\.\d+)?:这部分匹配前面讨论过的带可选小数部分的数字(整数部分必须有数字)。\d+ 匹配整数部分,(\.\d+)? 匹配可选的小数部分。
  • |:或者。
  • [+-]?:可选的正号或负号。
  • \.\d+:这部分匹配小数点后面跟着至少一个数字(用于匹配 .5, -.5 这种形式)。

这个组合模式能够覆盖大部分常见的数字格式:

  • 匹配 "123" (\d+ 部分)
  • 匹配 "-45" ([+-]?\d+ 部分)
  • 匹配 "1.23" (\d+\.\d+ 部分)
  • 匹配 "-0.5" ([+-]?\d+\.\d+ 部分)
  • 匹配 ".78" (\.\d+ 部分)
  • 匹配 "-."注意: 这个模式会匹配 "-." 中的 "-."。因为 \.\d+ 要求小数点后至少一个数字。

让我们调整一下,确保整数部分或者小数部分至少有一个数字出现,并且在有小数点的情况下,点前后至少一边有数字 (或者两边都有)。一个更精确且常用的模式是:

  • 模式: /[+-]?(\d+(\.\d*)?|\.\d+)/

    拆解:
    * [+-]?:可选的正负号。
    * ():外部大分组,将后面的两个主要情况组合起来。
    * \d+(\.\d*)?:情况1 – 匹配有整数部分的数字。\d+ 匹配整数部分(至少一位数字),(\.\d*)? 匹配可选的小数部分(小数点后可以有零个或多个数字 \d*)。
    * 匹配 123 (\d+ 匹配 123, (\.\d*)? 出现零次)
    * 匹配 123. (\d+ 匹配 123, (\.\d*)? 匹配 .\d* 匹配空字符串)
    * 匹配 123.45 (\d+ 匹配 123, (\.\d*)? 匹配 .45)
    * |:或者。
    * \.\d+:情况2 – 匹配没有整数部分,但有小数部分的数字。\. 匹配小数点,\d+ 匹配小数部分(至少一位数字)。
    * 匹配 .45

    综合起来,这个模式 /[+-]?(\d+(\.\d*)?|\.\d+)/ 可以匹配:
    * 123, -123, +123
    * 123., -123., +123.
    * 123.45, -123.45, +123.45
    * .45, -.45, +.45
    * 不匹配 . (因为 \.\d+ 要求点后有数字)
    * 不匹配 +-123 (因为 [+-]? 只匹配一个符号)

这个模式已经相当完善,可以应对绝大多数常见的数字匹配需求(整数、小数、带符号)。

第五章:精确匹配数字——锚点和边界

到目前为止,我们构建的模式可以在字符串中找到符合模式的任何子串。例如,模式 /\d+/ 在字符串 "abc123xyz" 中会匹配到 "123"。这在提取数字时很有用。

但是,如果我们想验证一个整个字符串是不是一个数字(比如用户输入一个表单域),或者我们想确保匹配到的数字不是其他“单词”的一部分(比如 part123 中的 123),我们就需要使用锚点 (Anchors)单词边界 (Word Boundaries)

5.1 锚点:定位到字符串的开始或结束

锚点不匹配任何字符,它们匹配的是一个位置。

  • ^:匹配字符串的开始

    • 模式: /^\d+/
    • 字符串: "123xyz" -> 匹配到 "123"^ 确保匹配从字符串开头开始。
    • 字符串: "abc123xyz" -> 没有匹配。因为字符串开头是 a,不符合 ^\d+ (开头必须是数字) 的要求。
  • $:匹配字符串的结束

    • 模式: /\d+$/
    • 字符串: "abc123" -> 匹配到 "123"$ 确保匹配在字符串结尾结束。
    • 字符串: "abc123xyz" -> 没有匹配。因为字符串结尾是 z,不符合 \d+$ (结尾必须是数字) 的要求。

要验证一个整个字符串是否是一个数字,我们可以将 ^$ 结合起来,把我们之前构建的数字模式“锚定”在字符串的开头和结尾。

  • 模式 (匹配整个字符串是整数): /^\d+$/

    • 匹配 "123"
    • 匹配 "0"
    • 不匹配 "123a" (结尾不是数字)
    • 不匹配 "a123" (开头不是数字)
    • 不匹配 "123\n" (取决于正则引擎对 $ 的解释,有些引擎 $ 匹配字符串结尾或行尾,但通常用于整个字符串验证时,它就是字符串结尾)
    • 不匹配 " 123 " (有空格)
  • 模式 (匹配整个字符串是带可选符号的整数): /^[+-]?\d+$/

    • 匹配 "-123"
    • 匹配 "456"
    • 匹配 "+789"
  • 模式 (匹配整个字符串是完整的、各种形式的数字,使用我们前面更健壮的模式): /^[+-]?(\d+(\.\d*)?|\.\d+)$/

    • 匹配 "123", "-45", "+67"
    • 匹配 "1.23", "-0.5", "+9.8"
    • 匹配 ".78", -.1"
    • 匹配 "123.", "-4."
    • 不匹配 "123a", "a123", "1.2.3", "abc" 等。

使用 ^$ 是进行严格字符串验证的常用手段。

5.2 单词边界 \b:匹配独立存在的数字

有时候,你不是想验证整个字符串,而是想在一段文字中找到那些“独立”的数字,而不是嵌在其他“单词”里的。例如,在 "version_1.2.3 release_4" 中,你想找到 1, 2, 3, 4,而不是 version_1, release_4。或者在 "part123 test456" 中,你想匹配 456 而不是 part123 中的 123

这时候,\b 单词边界就非常有用了。\b 匹配一个位置,这个位置一边是“单词字符”(字母、数字、下划线 _),另一边是“非单词字符”(空格、标点、换行等),或者一边是单词字符,另一边是字符串的开头/结尾。

简单来说,\b 可以看作是单词的开头或结尾。

  • 模式: /\b\d+\b/ (匹配被单词边界包围的一个或多个数字)

    • 字符串: "今天是 2023 年 8 月 1 日"
    • 匹配结果: 匹配到 2023, 8, 1。这些数字都被空格或字符串边界包围,符合 \b\d+\b 的条件。

    • 字符串: "版本号 version_1.2.3"

    • 匹配结果: 匹配到 231version_1 中,一边是字母 n (单词字符),另一边是 . (非单词字符),符合 \b 条件;但 1 的另一边是 v (单词字符),不符合另一边的 \b 条件。完整的匹配是 \b 后跟 \d+ 再跟 \b

      • 对于 version_1: v 是单词字符,e 是单词字符… n 是单词字符,_ 是单词字符。 1 是单词字符。_1 之间没有 \b1. 之间是 \b (单词字符到非单词字符的边界)。所以 \d+ 可以匹配 1,但它右边的 . 是非单词字符,符合 \b 的右边界,但它左边的 _ 是单词字符,不符合 \b 的左边界。因此 version_1 整体不被匹配为独立的数字。
      • 对于 1.2.3:
        • 1: 左边是 _ (单词),右边是 . (非单词)。左边不是 \b,右边是 \b\b\d+\b 不匹配。
        • .: 非单词字符。
        • 2: 左边是 . (非单词),右边是 . (非单词)。两边都是 \b!所以 \b2\b 可以匹配到 2
        • 3: 左边是 . (非单词),右边是字符串结尾。两边都是 \b!所以 \b3\b 可以匹配到 3
      • 对于 release_4: e 是单词字符,_ 是单词字符。4 是单词字符。_4 之间没有 \b4 的右边是字符串结尾,是 \b。所以 \b\d+\b 不匹配 release_4 中的 4
    • 字符串: "part123 test456"

    • 匹配结果: 匹配到 456testt 是单词字符,空格是非单词字符,\b 在空格和 t 之间。空格是非单词字符,4 是单词字符,\b 在空格和 4 之间。所以 \b456\b 匹配成功。part123t 是单词字符,1 是单词字符,之间无 \b

\b 在从文本中提取独立的数字时非常方便,可以避免匹配到混合了字母或符号的字符串中的数字部分。

你可以将 \b 和我们之前构建的更复杂的数字模式结合起来,以匹配独立存在的、各种形式的数字:

  • 模式: /\b[+-]?(\d+(\.\d*)?|\.\d+)\b/ (匹配独立存在的、带可选符号、可选小数部分的数字)

    • 字符串: "价格:-12.5 元,数量:100 个,税率:.05"
    • 匹配结果: 匹配到 -12.5, 100, .05

第六章:实践与工具

学习正则表达式最好的方法就是动手实践。现在你已经了解了匹配数字的基本元字符、量词、分组、锚点和边界,是时候去练练手了。

有一些非常棒的在线工具可以帮助你测试和理解正则表达式:

  1. Regex101 (regex101.com): 这是一个非常流行的在线正则表达式测试器。它支持多种编程语言的正则风格,最重要的是,当你输入正则表达式和测试字符串时,它会实时告诉你匹配结果,并且详细解释你的正则表达式的每个部分的含义。这是初学者理解正则的绝佳工具。
  2. RegExr (regexr.com): 另一个功能强大的在线工具,提供了常用的元字符、量词等参考列表,并有社区分享的常用模式。

练习建议:

  • 使用 /\d/ 匹配单个数字。
  • 使用 /\d+/ 匹配整数。
  • 使用 /\d{3}/ 匹配三位整数。
  • 使用 /-?\d+/ 匹配带可选负号的整数。
  • 使用 /\d+\.\d+/ 匹配标准的浮点数(如 1.23)。
  • 使用 /\d+(\.\d+)?/ 匹配带可选小数部分的数字(整数或小数)。
  • 使用 /[+-]?(\d+(\.\d*)?|\.\d+)/ 匹配更全面的数字格式。
  • 使用 ^\d+$ 验证整个字符串是否为正整数。
  • 使用 /\b\d+\b/ 在句子中查找独立的整数。
  • 尝试使用 /\b[+-]?(\d+(\.\d*)?|\.\d+)\b/ 在复杂文本中查找独立的各种数字。

在这些工具中输入你的模式和测试字符串,看看匹配结果是否符合预期。如果不符,利用工具的解释功能看看是哪里出了问题。

第七章:更进一步(简述)

我们已经涵盖了匹配绝大多数常见数字格式的基础知识。对于更复杂的场景,例如:

  • 带有千位分隔符的数字 (1,234,567.89): 这需要匹配逗号 , 并考虑它们出现的位置。模式可能会是 \d{1,3}(,\d{3})*(\.\d+)? (这只是一个简化版本,没有考虑开头不能是逗号等情况)。
  • 科学计数法 (1.2e-3, 5E10): 需要匹配 eE 以及后面的可选符号和指数数字。
  • 特定范围的数字 (例如匹配 1到100): 用纯正则表达式直接匹配任意范围的数字通常会非常复杂且难以维护(比如匹配 1-100 的模式是 [1-9]|[1-9]\d|100,1-999 呢? 1-99999 呢?)。对于这类需求,通常更好的做法是先用正则表达式匹配到所有的数字字符串,然后使用编程语言(如 Python, Java, JavaScript 等)将这些字符串转换为数字类型,再进行数值大小的比较。

这些更复杂的场景需要更深入地理解正则表达式的其他高级特性,比如非捕获分组、零宽断言(Lookahead/Lookbehind)等,但这已经超出了零基础入门的范围。掌握了本文介绍的基础知识,你已经能够应对绝大多数数字匹配的需求了。

第八章:在编程语言和工具中使用正则

正则表达式并非独立存在,它通常被集成在各种编程语言、文本编辑器和命令行工具中。

  • 编程语言: 几乎所有主流编程语言(Python, Java, JavaScript, C#, PHP, Ruby, Go 等)都内置了正则表达式引擎或提供了相关的库。你可以在代码中使用正则来进行字符串的查找、替换、分割和验证。语法上可能会有微小的差异,特别是关于转义字符(例如,在字符串中表示反斜杠 \ 本身,可能需要写成 \\)。
  • 文本编辑器: VS Code, Sublime Text, Notepad++, Vim, Emacs 等高级文本编辑器都支持使用正则表达式进行查找和替换,这对于代码重构、批量修改文本非常有用。
  • 命令行工具: Linux/Unix 系统下的 grep, sed, awk 等命令是处理文本的强大工具,它们广泛使用正则表达式。
  • 数据库: 一些数据库系统(如 MySQL, PostgreSQL, SQLite)在查询语句中支持正则表达式匹配(通常是 REGEXPRLIKE 操作符)。

当你学习如何在特定环境中使用正则表达式时,只需查阅该环境的文档,重点关注如何调用正则表达式功能以及任何特定的语法差异(尤其是转义符)。但核心的正则表达式模式本身(比如 \d+, -?, \., *, ?, +, {}, (), |, ^, $, \b 等)在不同环境中基本是通用的。

第九章:常见问题与提示

  • 转义: 记住那些有特殊含义的元字符(., +, *, ?, ^, $, (, ), [, ], {, }, |, \)在你想匹配它们字面意思时需要用 \ 转义。
  • 贪婪 vs. 非贪婪 (Greedy vs. Non-greedy): 量词 *, +, ?, {} 默认是“贪婪的”,它们会尽可能多地匹配字符。在量词后面加上 ? 可以使其变为“非贪婪的”,尽可能少地匹配。例如 /\d+?/"12345" 中只会匹配到 1。对于数字匹配来说,通常贪婪匹配(默认行为)就是你想要的,但了解这个概念很重要。
  • 测试: 总是使用在线测试工具或在你的环境中充分测试你的正则表达式,用各种符合和不符合预期的字符串去验证。
  • 可读性: 复杂的正则表达式会变得难以阅读和理解。在编程中,可以给正则模式添加注释(如果语言支持)或将其拆分成更小的部分(通过编程逻辑组合)。
  • 根据需求调整: 本文提供的模式是通用的。实际应用中,你需要根据具体的数字格式(是否有前导零要求、小数点后固定位数等)微调模式。

总结

恭喜你!你已经完成了正则表达式匹配数字的零基础入门。我们从认识正则表达式开始,学习了数字的代表符 \d,掌握了控制数量的量词 +, *, ?, {},解决了小数的挑战 \. 和分组 (),学会了用 | 处理多种情况,并利用锚点 ^, $ 和单词边界 \b 来实现精确匹配。

正则表达式就像一门小型的编程语言,需要通过练习来熟练掌握。从匹配数字开始是一个很好的起点,因为数字是日常文本中非常常见且模式相对固定的元素。

继续练习吧!尝试在不同的文本中应用今天学到的模式,并探索更复杂的数字格式。随着你的经验增长,你会发现正则表达式在处理文本数据时是多么不可或缺的强大工具。

祝你在正则表达式的世界里探索愉快!


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部