一尘不染

如何为斯坦福·泰格创建自己的训练语料库?

java

我必须用很多空手和当地的术语来分析非正式的英语文本。因此,我正在考虑为斯坦福标签创建模型。

如何为斯坦福标记者创建自己的标记语料库集以进行培训?

语料库的语法是什么?我的语料库应该达到多长时间才能达到理想的性能?


阅读 249

收藏
2020-12-03

共1个答案

一尘不染

要训​​练PoS标记器,请参阅此邮件列表帖子该帖子也包含在MaxentTagger类的JavaDocs中。

edu.stanford.nlp.tagger.maxent.Train类的javadocs
指定训练格式:

培训文件应采用以下格式:每行一个单词和一个标签,每行之间用空格或制表符分隔。每个句子应以EOS单词标签对结尾。(实际上,我不确定是否仍然如此,但可能不会受到伤害。-wmorgan)

2020-12-03