如何仅从语料库中找到“有趣”的单词？

一尘不染

如何仅从语料库中找到“有趣”的单词？

algorithm

我正在解析句子。我想知道每个句子的相关内容，这些句子相对于语料库的其余部分松散地定义为“半唯一单词”。类似于亚马逊的“统计上不可能的短语”，它似乎（经常）通过古怪的单词串传达一本书的特征。

我的第一步是开始制作常用单词列表。这击倒难办喜欢a，the，from，等。显然，事实证明，这个名单变得很长。

一个想法是生成此列表：对语料库的单词频率进行直方图分析，然后将前10％或类似的值倒掉（IE
the发生700次，from600次，但micropayments只有50 次，在临界值以下，因此是相关的）。

我今天从Hacker News中学到的另一个算法是Tf
idf，它看起来可能会有所帮助。

还有什么其他方法比我的两个想法更好？

阅读 219

2020-07-28

共1个答案

一尘不染

看一下这篇文章（
单词的级别统计：在文学文本和符号序列中查找关键字 ，发表在 Phys。Rev. E上 ）。

第一页上的图片及其标题解释了至关重要的观察结果。在 Don Quixote中 ，单词“ but”和“
Quixote”以相似的频率出现，但是它们的频谱却大不相同（“ Quixote”的出现是聚类的，而“ but”的出现则更为均匀）。因此，“
Quixote”可以被分类为一个有趣的单词（关键字），而“ but”却被忽略。

它可能是您想要的，也可能不是，但我想熟悉此结果不会对您造成伤害。

2020-07-28