一尘不染

为什么Java中大多数字符串操作都基于regexp?

java

在Java中,有一堆方法都与操纵字符串有关。最简单的示例是String.split(“ something”)方法。

现在,这些方法中许多方法的实际定义是,它们都使用正则表达式作为其输入参数。这样就构成了非常强大的构建基块。

现在,您将在其中许多方法中看到两种效果:

  1. 每次调用该方法时,它们都会重新编译表达式。因此,它们会对性能产生影响。
  2. 我发现在大多数“实际”情况下,这些方法都被称为“固定”文本。split方法的最常见用法甚至更糟:通常用单个字符(通常是’‘,’‘;’或’&’)进行拆分来调用。

因此,不仅默认方法功能强大,而且它们似乎在实际用途上也被压倒了。在内部,我们开发了一种“
fastSplit”方法,该方法在固定字符串上进行拆分。我在家里写了一个测试,看看如果知道是一个字符,我可以快得多。两者都比“标准”拆分方法快得多。

所以我在想:为什么选择Java
API成为现在的样子?为什么要这样做,而不是像split(char)和split(String)和splitRegex(String)这样的好理由呢?


更新:我打了几个电话,看看各种分割字符串的方法要花多少时间。

简短的摘要:它使一个 很大的 区别!

我总是使用输入为每个测试用例进行10000000次迭代

"aap,noot,mies,wim,zus,jet,teun"

并始终使用’,’或“,”作为sp​​lit参数。

这是我在Linux系统上得到的(这是Atom D510盒,因此有点慢):

fastSplit STRING
Test  1 : 11405 milliseconds: Split in several pieces
Test  2 :  3018 milliseconds: Split in 2 pieces
Test  3 :  4396 milliseconds: Split in 3 pieces

homegrown fast splitter based on char
Test  4 :  9076 milliseconds: Split in several pieces
Test  5 :  2024 milliseconds: Split in 2 pieces
Test  6 :  2924 milliseconds: Split in 3 pieces

homegrown splitter based on char that always splits in 2 pieces
Test  7 :  1230 milliseconds: Split in 2 pieces

String.split(regex)
Test  8 : 32913 milliseconds: Split in several pieces
Test  9 : 30072 milliseconds: Split in 2 pieces
Test 10 : 31278 milliseconds: Split in 3 pieces

String.split(regex) using precompiled Pattern
Test 11 : 26138 milliseconds: Split in several pieces 
Test 12 : 23612 milliseconds: Split in 2 pieces
Test 13 : 24654 milliseconds: Split in 3 pieces

StringTokenizer
Test 14 : 27616 milliseconds: Split in several pieces
Test 15 : 28121 milliseconds: Split in 2 pieces
Test 16 : 27739 milliseconds: Split in 3 pieces

如您所见,如果您要进行很多“固定字符”拆分,则将有很大的不同。

给你们一些见识;我目前正在使用 大型 网站的数据来查看Apache日志文件和Hadoop领域。所以对我来说,这真的很重要:)

我这里没有考虑的是垃圾收集器。据我所知,将正则表达式编译为Pattern / Matcher /
..将分配许多对象,需要收集一些时间。因此,从长远来看,这些版本之间的差异可能更大……或更小。

到目前为止,我的结论是:

  • 仅当您要拆分许多字符串时,才对它进行优化。
  • 如果您使用正则表达式方法,则如果您反复使用相同的模式,请务必进行预编译。
  • 忘记(过时的)StringTokenizer
  • 如果要拆分单个字符,请使用自定义方法,特别是如果您只需要将其拆分为特定数量的片段(如… 2)。

附言:我给我所有我用char方法拆分的本地代码(在该站点上所有内容均归于:)许可下)。我还没有完全测试过它们。玩得开心。

private static String[]
        stringSplitChar(final String input,
                        final char separator) {
    int pieces = 0;

    // First we count how many pieces we will need to store ( = separators + 1 )
    int position = 0;
    do {
        pieces++;
        position = input.indexOf(separator, position + 1);
    } while (position != -1);

    // Then we allocate memory
    final String[] result = new String[pieces];

    // And start cutting and copying the pieces.
    int previousposition = 0;
    int currentposition = input.indexOf(separator);
    int piece = 0;
    final int lastpiece = pieces - 1;
    while (piece < lastpiece) {
        result[piece++] = input.substring(previousposition, currentposition);
        previousposition = currentposition + 1;
        currentposition = input.indexOf(separator, previousposition);
    }
    result[piece] = input.substring(previousposition);

    return result;
}

private static String[]
        stringSplitChar(final String input,
                        final char separator,
                        final int maxpieces) {
    if (maxpieces <= 0) {
        return stringSplitChar(input, separator);
    }
    int pieces = maxpieces;

    // Then we allocate memory
    final String[] result = new String[pieces];

    // And start cutting and copying the pieces.
    int previousposition = 0;
    int currentposition = input.indexOf(separator);
    int piece = 0;
    final int lastpiece = pieces - 1;
    while (currentposition != -1 && piece < lastpiece) {
        result[piece++] = input.substring(previousposition, currentposition);
        previousposition = currentposition + 1;
        currentposition = input.indexOf(separator, previousposition);
    }
    result[piece] = input.substring(previousposition);

    // All remaining array elements are uninitialized and assumed to be null
    return result;
}

private static String[]
        stringChop(final String input,
                   final char separator) {
    String[] result;
    // Find the separator.
    final int separatorIndex = input.indexOf(separator);
    if (separatorIndex == -1) {
        result = new String[1];
        result[0] = input;
    }
    else {
        result = new String[2];
        result[0] = input.substring(0, separatorIndex);
        result[1] = input.substring(separatorIndex + 1);
    }
    return result;
}

阅读 190

收藏
2020-12-03

共1个答案

一尘不染

请注意,无需每次都重新编译正则表达式。从Javadoc

这种形式的方法的调用str.split(regex, n)产生与表达式相同的结果

Pattern.compile(regex).split(str, n)

也就是说,如果您担心性能,则可以预编译模式,然后重用它:

Pattern p = Pattern.compile(regex);
...
String[] tokens1 = p.split(str1); 
String[] tokens2 = p.split(str2); 
...

代替

String[] tokens1 = str1.split(regex);
String[] tokens2 = str2.split(regex);
...

我相信进行此API设计的主要原因是方便。由于正则表达式也包括所有“固定”字符串/字符,因此它简化了API使用一种方法而不是几种方法的方法。而且,如果有人担心性能,则仍可以如上所述对正则表达式进行预编译。

我的感觉(我无法获得任何统计证据支持)是,大多数情况String.split()是在性能不成问题的情况下使用的。例如,这是一次性的操作,或者与其他因素相比,性能差异可以忽略不计。在紧密循环中使用同一个正则表达式数千次拆分字符串的情况下,IMO很少出现,性能优化确实有意义。

有趣的是,将具有固定字符串/字符的正则表达式匹配器实现的性能与专用于它们的匹配器的性能进行比较。差异可能不足以证明单独的实现是正确的。

2020-12-03