一尘不染

为什么选择的顺序在正则表达式中很重要?

c#

using System;
using System.Text.RegularExpressions;

namespace RegexNoMatch {
    class Program {
        static void Main () {
            string input = "a foobar& b";
            string regex1 = "(foobar|foo)&?";
            string regex2 = "(foo|foobar)&?";
            string replace = "$1";
            Console.WriteLine(Regex.Replace(input, regex1, replace));
            Console.WriteLine(Regex.Replace(input, regex2, replace));
            Console.ReadKey();
        }
    }
}

预期产量

a foobar b
a foobar b

实际产量

a foobar b
a foobar& b

当正则表达式模式中的“ foo”和“ foobar”的顺序更改时,为什么替换不起作用?如何解决这个问题?


阅读 275

收藏
2020-05-19

共1个答案

一尘不染

正则表达式引擎尝试按指定的顺序匹配替代项。因此,当模式正确时,(foo|foobar)&?它将foo立即匹配并继续尝试查找匹配项。输入字符串的下一位bar& b不能匹配。

换句话说,因为foo是的一部分foobar,所以(foo|foobar)永远不会匹配foobar,因为它将始终foo首先匹配。

实际上,有时候这可能是一个非常有用的技巧。该模式(o|a|(\w))将允许您捕获\wa或以其他方式捕获o

Regex.Replace("a foobar& b", "(o|a|(\\w))", "$2") // fbr& b
2020-05-19