如何使用Python从Wikipedia文章中提取第一段?
例如,对于 Albert Einstein ,那将是:
阿尔伯特·爱因斯坦(发音:/ ˈælbərt ˈaɪnstaɪn /;德语:[ˈalbɐt ˈaɪnʃtaɪn](听); 1879年3月14日至1955年4月18日)是一位理论物理学家,哲学家和作家,被广泛认为是最有影响力和标志性的科学家和知识分子之一所有的时间。爱因斯坦是德国瑞士诺贝尔奖获得者,通常被认为是现代物理学之父。[2] 他因“对理论物理学的贡献,特别是对光电效应定律的发现”而获得了1921年诺贝尔物理学奖。[3]
前一段时间,我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案,但是您可以根据需要进行调整:
wikipedia.py wiki2plain.py
您可以像这样使用它:
from wikipedia import Wikipedia from wiki2plain import Wiki2Plain lang = 'simple' wiki = Wikipedia(lang) try: raw = wiki.article('Uruguay') except: raw = None if raw: wiki2plain = Wiki2Plain(raw) content = wiki2plain.text