一尘不染

如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?

python

我可以使用scikit-
learn中的文本CountVectorizerTfidfVectorizer参数从文本文档中保留!,?,“和’的标点符号吗?


阅读 529

收藏
2021-01-20

共1个答案

一尘不染

token_pattern实例化矢量化程序时,应自定义参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
2021-01-20