在Python 3中加速数百万个正则表达式的替换

一尘不染

python

我正在使用Python 3.5.2

我有两个清单

因此，我必须遍历750,000个句子并执行大约20,000个替换，但前提是我的单词实际上是“单词”，并且不属于较大的字符串。

我这样做是通过预编译我的单词，使它们位于\b元字符的两侧

compiled_words = [re.compile(r'\b' + word + r'\b') for word in my20000words]

然后我遍历我的“句子”

import re

for sentence in sentences:
  for word in compiled_words:
    sentence = re.sub(word, "", sentence)
  # put sentence into a growing list

这个嵌套循环每秒处理大约50个句子，这很好，但是处理我所有的句子仍需要几个小时。

感谢你的任何建议。

阅读 535

2020-02-16

共1个答案

一尘不染

你可以尝试做的一件事就是编译一个单一模式，例如"\b(word1|word2|word3)\b"。

由于re依靠C代码进行实际匹配，因此节省的费用可观。

正如@pvg在评论中指出的，它也受益于单遍匹配。

如果你的单词不是正则表达式，那么Eric的答案会更快。

2020-02-16