一尘不染

对文本内容进行地理标记或地理标记的方法

algorithm

用城市/地区或起源自动标记文本的一些好的算法是什么?也就是说,如果博客是关于纽约的,我该如何以编程的方式告诉他们。是否有包装或文件声称可以做到一定程度的确定性?

我看过一些基于tfidf的方法,专有名词的交集,但到目前为止,还没有任何成功的案例,我非常感谢您的想法!

给定一些主题列表,更笼统的问题是关于为主题分配文本。

简单/幼稚的方法比完整的贝叶斯方法更可取,但是我很开放。


阅读 243

收藏
2020-07-28

共1个答案

一尘不染

您正在寻找命名实体识别系统,或简称NER。有几个
很好的
工具包可以帮助您。尤其是LingPipe有一个非常不错的教程CAGEclass似乎围绕NER在地理上的地名,但是我还没有使用它。

这是一个很好的博客条目,介绍了NER与地理位置名称之间的困难。

如果您要使用Java,建议您使用LingPipe NER类。OpenNLP也有一些,但是前者有更好的文档。

如果您正在寻找一些理论背景,Chavez等人。(2005)构造了一个有趣的系统并记录了下来。

2020-07-28