一尘不染

语言检测如何工作?

algorithm

一段时间以来,我一直想知道Google翻译(或假设的翻译)如何从“发件人”字段中输入的字符串中检测语言。我一直在考虑这个问题,我唯一想到的就是在输入字符串中寻找一种语言所独有的单词。除关键字外,另一种方法可能是检查句子的形成或其他语义。但是考虑到不同的语言及其语义,这似乎是一项非常艰巨的任务。我进行了一些研究,发现有些方法可以使用n-
gram序列并使用一些统计模型来检测语言。也将希望获得高层答复。


阅读 167

收藏
2020-07-28

共1个答案

一尘不染

您无需对文本进行深入的分析即可了解其所使用的语言。统计信息告诉我们,每种语言都有特定的字符模式和频率。这是一个很好的一阶近似值。当文本为多种语言时,情况会变得更糟,但仍然不是很复杂。当然,如果文本太短(例如,单个单词,更糟的单词,单个简短单词),则统计信息不起作用,您需要词典。

2020-07-28