我可以使用scikit- learn中的文本CountVectorizer或TfidfVectorizer参数从文本文档中保留!,?,“和’的标点符号吗?
CountVectorizer
TfidfVectorizer
token_pattern实例化矢量化程序时,应自定义参数。例如:
token_pattern
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")