一尘不染

有没有好的开源或免费的中文分割算法?

algorithm

正如问题中所说,我正在寻找一种针对中文的免费和/或开源文本分割算法,我知道这是一项非常艰巨的任务,因为存在很多歧义。我知道有Google的API,但它确实是一个黑匣子,也就是说,它正在通过的信息不多。


阅读 213

收藏
2020-07-28

共1个答案

一尘不染

关键字text-segmentation for Chinese应为中文分词中文。

良好且有效的开源文本分段算法

  1. 盘古分词(盘古段)C# Snapshot
  2. ik-analyzerJava
  3. ICTCLASC/C++, Java, C# Demo
  4. NlpBambooC, PHP, PostgreSQL
  5. HTTPCWS :基于ICTCLAS Demo
  6. mmseg4jJava
  7. fudannlpJava Demo
  8. 小段Python, Java Demo
  9. nsegNodeJS
  10. 迷你分段器python

其他

  1. Google编码http : //code.google.com/query/#q=中文分词
  2. OSChina(中国开源)

样品

  1. 谷歌浏览器(铬)srccc_cedict.txt (73,145 Chinese words/pharases)

    • text fieldtextarea谷歌浏览器 与中国的句子,按 Ctrl+ Ctrl+

    • Double click中文分词指的是将一个汉字序列切分成一个一个单独的词

2020-07-28