Java或任何开放源代码库中是否有任何方法可以转义(不引用)特殊字符(元字符),以便将其用作正则表达式?
动态构建正则表达式非常方便,而不必手动转义每个字符。
例如,考虑一个简单的正则表达式\d+\.\d+,它匹配带小数点的数字,例如1.2,以及以下代码:
\d+\.\d+
1.2
String digit = "d"; String point = "."; String regex1 = "\\d+\\.\\d+"; String regex2 = Pattern.quote(digit + "+" + point + digit + "+"); Pattern numbers1 = Pattern.compile(regex1); Pattern numbers2 = Pattern.compile(regex2); System.out.println("Regex 1: " + regex1); if (numbers1.matcher("1.2").matches()) { System.out.println("\tMatch"); } else { System.out.println("\tNo match"); } System.out.println("Regex 2: " + regex2); if (numbers2.matcher("1.2").matches()) { System.out.println("\tMatch"); } else { System.out.println("\tNo match"); }
毫不奇怪,以上代码产生的输出是:
Regex 1: \d+\.\d+ Match Regex 2: \Qd+.d+\E No match
也就是说,regex1匹配项(1.2但是regex2“动态”构建的)不匹配(相反,它与文字字符串匹配d+.d+)。
regex1
regex2
d+.d+
那么,有没有一种方法可以自动转义每个正则表达式元字符?
假设存在的静态escape()方法java.util.regex.Pattern,
escape()
java.util.regex.Pattern
Pattern.escape('.')
将是字符串"\.",但是
"\."
Pattern.escape(',')
应该只是产生",",因为它不是一个元字符。同样,
","
Pattern.escape('d')
可能会产生"\d",因为'd'用来表示数字(尽管转义在这种情况下可能没有意义,因为'd'可能意味着literal 'd',正则表达式插入符不会误认为它是别的东西,例如'.')。
"\d"
'd'
'.'
如果您正在寻找一种创建可在正则表达式模式中使用的常量的方法,则只需在它们前面加上前缀即可,"\\"但是没有很好的Pattern.escape('.')函数可以帮助您。
"\\"
因此,如果您尝试匹配"\\d"(字符串\d而不是十进制字符),则可以执行以下操作:
"\\d"
\d
// this will match on \d as opposed to a decimal character String matchBackslashD = "\\\\d"; // as opposed to String matchDecimalDigit = "\\d";
Java字符串中的4个斜杠在regex模式中变成2个斜杠。正则表达式模式中的2个反斜杠与反斜杠本身匹配。在任何特殊字符前加反斜杠会将其变为普通字符,而不是特殊字符。
matchPeriod = "\\."; matchPlus = "\\+"; matchParens = "\\(\\)"; ...
在您的帖子中,您可以使用Pattern.quote(string)方法。此方法包装之间的模式"\\Q",并"\\E"因此即使它恰好有一个特殊的正则表达式字符它,你可以匹配的字符串(+,.,\\d等)
Pattern.quote(string)
"\\Q"
"\\E"
+
.
\\d