掌握正则表达式:轻松实现数字匹配 – wiki基地


掌握正则表达式:轻松实现数字匹配

正则表达式(Regular Expression,简称 Regex 或 RegExp)是处理字符串的强大工具,它以一种简洁而富有表现力的方式定义了字符串的搜索模式。无论是在数据验证、文本处理还是日志分析中,数字匹配都是正则表达式最常用也是最核心的应用之一。本文将深入探讨如何使用正则表达式轻松而精确地匹配各种数字类型。

一、正则表达式基础回顾

在深入数字匹配之前,我们先快速回顾几个基本的正则表达式元字符:

  • .:匹配除换行符以外的任意单个字符。
  • *:匹配前一个字符零次或多次。
  • +:匹配前一个字符一次或多次。
  • ?:匹配前一个字符零次或一次。
  • {n}:匹配前一个字符恰好 n 次。
  • {n,}:匹配前一个字符至少 n 次。
  • {n,m}:匹配前一个字符 nm 次。
  • [xyz]:字符集,匹配 xyz 中的任意一个字符。
  • [^xyz]:否定字符集,匹配除 xyz 以外的任意一个字符。
  • \d:匹配任意一个数字 (0-9),等同于 [0-9]
  • \D:匹配任意一个非数字字符,等同于 [^0-9]
  • \s:匹配任意一个空白字符(空格、制表符、换行符等)。
  • \S:匹配任意一个非空白字符。
  • \w:匹配任意一个字母、数字或下划线,等同于 [a-zA-Z0-9_]
  • \W:匹配任意一个非字母、数字、下划线字符。
  • ^:匹配行的开头。
  • $:匹配行的结尾。
  • \b:匹配单词边界。

二、匹配整数

匹配整数是最基本的数字匹配需求。整数可以是正数、负数或零。

1. 匹配非负整数(0、1、2…)

regex
^\d+$

  • ^:匹配字符串的开始。
  • \d+:匹配一个或多个数字(\d 等同于 [0-9])。
  • $:匹配字符串的结束。

例子: “123”, “0”, “98765” 都能匹配,但 “123a” 或 “a123” 不能。

如果整数可能包含前导零(例如 “007”),上述模式是适用的。如果希望排除前导零(除了单个零),则模式会稍微复杂:

regex
^(0|[1-9]\d*)$

  • (0|...):匹配 0 或者 括号内的模式。
  • [1-9]:匹配一个非零数字。
  • \d*:匹配零个或多个数字。

例子: “0”, “123”, “500” 匹配,但 “012” 不匹配。

2. 匹配正整数(1、2、3…)

正整数不包括零。

regex
^[1-9]\d*$

  • [1-9]:匹配一个非零数字作为开头。
  • \d*:接着匹配零个或多个数字。

例子: “1”, “123”, “99” 匹配,但 “0” 或 “05” 不匹配。

3. 匹配负整数(-1、-2、-3…)

负整数以减号 - 开头。

regex
^-\d+$

  • ^:字符串开头。
  • -:匹配字面上的减号。
  • \d+:匹配一个或多个数字。
  • $:字符串结尾。

例子: “-1”, “-123” 匹配,但 “123” 或 “–1” 不匹配。

4. 匹配任意整数(正、负、零)

结合上述模式,可以匹配所有整数。

regex
^-?\d+$

  • ^-?:匹配字符串开头,接着是零个或一个减号(? 表示零次或一次)。
  • \d+:匹配一个或多个数字。
  • $:字符串结尾。

例子: “123”, “-456”, “0”, “9” 都匹配。

三、匹配浮点数(小数)

浮点数通常包含整数部分、小数点和小数部分。

1. 匹配简单小数(如 1.23, 0.5, .5)

考虑小数可能没有整数部分(如 .5)或没有小数部分(如 5.)。

regex
^(\d+\.\d*|\.\d+|\d+)$

这个模式看起来有点复杂,让我们拆解一下:

  • ^...$:匹配整个字符串。
  • (\d+\.\d* ...):这是一个捕获组,包含三种可能的小数形式,用 |(或)连接。
    • \d+\.\d*:匹配至少一位整数,后跟小数点,再后跟零位或多位小数(如 “1.23”, “1.”, “123.0”)。
    • \.\d+:匹配小数点开头,后跟至少一位小数(如 “.5”, “.123″)。
    • \d+:匹配纯整数(如 “123”),因为有时候整数也被视为浮点数的一种特殊形式。

例子: “1.23”, “0.5”, “.5”, “123”, “1.” 都能匹配。

2. 匹配带正负号的浮点数

在上面的基础上加上可选的正负号。

regex
^[+-]?(\d+\.\d*|\.\d+|\d+)$

  • [+-]?:匹配一个可选的正号或负号。

例子: “1.23”, “-0.5”, “+.5”, “123”, “-1.” 都能匹配。

3. 匹配更严谨的浮点数(强制整数部分或小数部分存在)

如果要求浮点数必须有整数部分或小数部分,且不能以 .X.结尾。

regex
^[+-]?(\d+\.\d+|\d+\.|\.\d+|\d+)$

这个模式依然可以进一步简化和优化,例如,使用 (?:...) 非捕获组以提高效率,或用 \d*\.\d+|\d+\.\d* 来处理小数点两边至少有一边有数字的情况。

一个更常用的、更简洁也更严谨的浮点数(正负均可,且小数点两边至少有一边有数字)模式:

regex
^[+-]?(\d*\.\d+|\d+\.\d*)$

  • \d*\.\d+:匹配零个或多个数字,一个小数点,接着一个或多个数字(如 “.5”, “0.5”, “123.45”)。
  • \d+\.\d*:匹配一个或多个数字,一个小数点,接着零个或多个数字(如 “123.”, “123.45”, “123.0”)。

例子: “1.23”, “-0.5”, “.5”, “123.”, “-.01” 都能匹配。但 “123”(纯整数)不匹配。

如果需要匹配纯整数和浮点数,可以再加一个 |\d+

regex
^[+-]?(\d*\.\d+|\d+\.\d*|\d+)$

例子: “123”, “-456”, “0”, “1.23”, “-0.5”, “.5”, “123.”, “-.01” 都匹配。

四、匹配特定格式的数字

有时我们需要匹配特定格式的数字,例如电话号码、邮政编码等。

1. 匹配电话号码(例如:XXX-XXX-XXXX)

regex
^\d{3}-\d{3}-\d{4}$

  • \d{3}:匹配恰好三个数字。
  • -:匹配字面上的连字符。

例子: “123-456-7890” 匹配。

如果电话号码中的连字符是可选的:

regex
^\d{3}-?\d{3}-?\d{4}$

  • -?:匹配零个或一个连字符。

2. 匹配货币金额(例如:$100.00, ¥99)

regex
^[¥$€]?\d+(\.\d{2})?$

  • [¥$€]?:匹配可选的一个货币符号(人民币、美元、欧元)。
  • \d+:匹配一个或多个数字作为整数部分。
  • (\.\d{2})?:一个可选的非捕获组,匹配小数点后跟两位数字。
    • \.:匹配字面上的小数点。
    • \d{2}:匹配恰好两位数字。

例子: “$100.00”, “¥99”, “€1.23” 匹配。但 “$100.1” 不匹配。

如果小数点后位数不固定:

regex
^[¥$€]?\d+(\.\d+)?$

例子: “$100.1”, “¥99”, “€1.234” 匹配。

五、使用单词边界 \b 进行精确匹配

当你想匹配一个独立的数字,而不是作为其他单词一部分的数字时,\b(单词边界)非常有用。

例如,匹配文本中的所有整数:

regex
\b\d+\b

这会匹配 “hello 123 world” 中的 “123”,但不会匹配 “part123” 中的 “123”。

六、注意事项和最佳实践

  1. 明确需求: 在编写正则表达式之前,清楚地定义要匹配的数字类型、格式、范围等。
  2. 测试: 使用在线正则表达式测试工具(如 Regex101, RegExr)或编程语言的内置功能,用各种正例和反例充分测试你的模式。
  3. 可读性: 复杂的正则表达式可以使用注释(如果语言支持)或拆分成更小的部分来提高可读性。
  4. 性能: 避免过度使用通配符(如 .*)或不必要的捕获组,这可能会导致回溯陷阱,降低性能。
  5. 全局匹配: 在许多编程语言中,正则表达式引擎默认只匹配第一次出现。如果你想匹配所有符合模式的数字,需要使用全局匹配标志(例如 JavaScript 中的 g,Python 中的 re.findall)。
  6. 转义特殊字符: 如果要匹配正则表达式中的特殊字符本身(如 . * + ? $ ^ ( ) [ ] { } \ |),需要用反斜杠 \ 进行转义。

总结

掌握正则表达式进行数字匹配是提高文本处理效率的关键技能。从简单的整数到复杂的浮点数和特定格式的数字,正则表达式都能提供强大而灵活的解决方案。通过理解元字符、字符集和量词的组合,并结合 ^$\b 等锚点,你将能够精确地控制匹配行为,从而轻松应对各种数字匹配挑战。多加练习和测试,你将成为正则表达式的真正高手!


滚动至顶部