我有这样定义的多行字符串:
foo = """ this is a multi-line string. """
我们用作我正在编写的解析器的测试输入的字符串。解析器功能接收file-object作为输入并对其进行迭代。它还确实next()直接调用该方法以跳过行,因此我确实需要一个迭代器作为输入,而不是可迭代的。我需要一个迭代器,它可以在字符串的各个行之间进行迭代,就像file-object可以在文本文件的行之间进行迭代一样。我当然可以这样:
file
next()
lineiterator = iter(foo.splitlines())
是否有更直接的方法?在这种情况下,字符串必须遍历一次以进行拆分,然后再由解析器进行遍历。在我的测试用例中,这无关紧要,因为那里的字符串很短,我只是出于好奇而问。Python有很多有用且高效的内置程序,但是我找不到适合这种需求的东西。
这是三种可能性:
foo = """ this is a multi-line string. """ def f1(foo=foo): return iter(foo.splitlines()) def f2(foo=foo): retval = '' for char in foo: retval += char if not char == '\n' else '' if char == '\n': yield retval retval = '' if retval: yield retval def f3(foo=foo): prevnl = -1 while True: nextnl = foo.find('\n', prevnl + 1) if nextnl < 0: break yield foo[prevnl + 1:nextnl] prevnl = nextnl if __name__ == '__main__': for f in f1, f2, f3: print list(f())
将其运行为主脚本,确认这三个功能等效。使用timeit(并使用* 100forfoo获得大量字符串以进行更精确的测量):
timeit
* 100
foo
$ python -mtimeit -s'import asp' 'list(asp.f3())' 1000 loops, best of 3: 370 usec per loop $ python -mtimeit -s'import asp' 'list(asp.f2())' 1000 loops, best of 3: 1.36 msec per loop $ python -mtimeit -s'import asp' 'list(asp.f1())' 10000 loops, best of 3: 61.5 usec per loop
注意,我们需要list()调用以确保遍历迭代器,而不仅仅是构建迭代器。
list()
IOW,天真的实现要快得多,甚至都不有趣:比我尝试find调用快6倍,而调用比底层方法快4倍。
find
经验教训:测量永远是一件好事(但必须准确);像这样的字符串方法splitlines以非常快的方式实现;通过在非常低的级别上进行编程(尤其是通过+=非常小的片段的循环)来将字符串组合在一起可能会非常缓慢。
splitlines
+=
编辑 :添加了@Jacob的建议,对其进行了稍加修改以使其与其他建议相同(保留行尾空白),即:
from cStringIO import StringIO def f4(foo=foo): stri = StringIO(foo) while True: nl = stri.readline() if nl != '': yield nl.strip('\n') else: raise StopIteration
测量得出:
$ python -mtimeit -s'import asp' 'list(asp.f4())' 1000 loops, best of 3: 406 usec per loop
不如.find基于基础的方法好- 仍然要牢记,因为它可能不大可能出现小的一次性错误(如f3上面所述,任何出现+1和-1的循环都应该自动触发一个个的怀疑- 许多缺乏这种调整的循环也应该具有它们-尽管我相信我的代码也是正确的,因为我能够用其他功能检查其输出。’‘
.find
f3
但是基于拆分的方法仍然占主导地位。
顺便说一句:可能更好的样式f4是:
f4
from cStringIO import StringIO def f4(foo=foo): stri = StringIO(foo) while True: nl = stri.readline() if nl == '': break yield nl.strip('\n')
至少,它不那么冗长。\n不幸的是,剥离尾部的需要禁止用以下方法更清楚,更快速地替换while循环return iter(stri)(iter在现代版本的Python中,多余的部分是多余的,我相信从2.3或2.4开始,但它也是无害的)。也许值得尝试,也:
\n
while
return iter(stri)
iter
return itertools.imap(lambda s: s.strip('\n'), stri)
或其变体-但我在这里停止,因为这几乎是一项strip基础,最简单,最快的理论性练习。
strip