正如问题中所说,我正在寻找一种针对中文的免费和/或开源文本分割算法,我知道这是一项非常艰巨的任务,因为存在很多歧义。我知道有Google的API,但它确实是一个黑匣子,也就是说,它正在通过的信息不多。
关键字text-segmentation for Chinese应为中文分词中文。
text-segmentation for Chinese
中文分词
良好且有效的开源文本分段算法 :
C#
Snapshot
Java
C/C++, Java, C#
Demo
C, PHP, PostgreSQL
ICTCLAS
Python, Java
python
其他
样品
谷歌浏览器(铬) :src,cc_cedict.txt (73,145 Chinese words/pharases)
src
cc_cedict.txt (73,145 Chinese words/pharases)
在text field或textarea的 谷歌浏览器 与中国的句子,按 Ctrl+ ←或Ctrl+→
text field
textarea
Ctrl
←
→
Double click 上 中文分词指的是将一个汉字序列切分成一个一个单独的词
Double click
中文分词指的是将一个汉字序列切分成一个一个单独的词