一尘不染

如何仅从语料库中找到“有趣”的单词?

algorithm

我正在解析句子。我想知道每个句子的相关内容,这些句子相对于语料库的其余部分松散地定义为“半唯一单词”。类似于亚马逊的“统计上不可能的短语”,它似乎(经常)通过古怪的单词串传达一本书的特征。

我的第一步是开始制作常用单词列表。这击倒难办喜欢athefrom,等。显然,事实证明,这个名单变得很长。

一个想法是生成此列​​表:对语料库的单词频率进行直方图分析,然后将前10%或类似的值倒掉(IE
the发生700次,from600次,但micropayments只有50 次,在临界值以下,因此是相关的) 。

我今天从Hacker News中学到的另一个算法是Tf
idf
,它看起来可能会有所帮助。

还有什么其他方法比我的两个想法更好?


阅读 219

收藏
2020-07-28

共1个答案

一尘不染

看一下这篇文章
单词的级别统计:在文学文本和符号序列中查找关键字 ,发表在 Phys。Rev. E上 )。

第一页上的图片及其标题解释了至关重要的观察结果。在 Don Quixote中 ,单词“ but”和“
Quixote”以相似的频率出现,但是它们的频谱却大不相同(“ Quixote”的出现是聚类的,而“ but”的出现则更为均匀)。因此,“
Quixote”可以被分类为一个有趣的单词(关键字),而“ but”却被忽略。

它可能是您想要的,也可能不是,但我想熟悉此结果不会对您造成伤害。

2020-07-28