一尘不染

Python和字符规范化

django

我从一个包含特殊字符的国外来源中检索了基于文本的utf8数据,例如,u"ıöüç"当我想将它们标准化为英语时,例如"ıöüç"-> "iouc"。实现这一目标的最佳方法是什么?


阅读 745

收藏
2020-03-31

共1个答案

一尘不染

我建议使用Unidecode模块:

>>> from unidecode import unidecode
>>> unidecode(u'ıöüç')
'iouc'

请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。

2020-03-31