我一直在研究基于压缩的文本分类,并且试图找到一种存储由编码器构建的字典的方法(在训练文件上),以用于在测试文件上“静态”运行?使用UNIX的gzip实用程序完全可以做到吗?
例如,我一直在使用Sport.txt和atheism.txt的2个“类”文件,因此我想对这两个文件都运行压缩并存储使用的字典。接下来,我要获取一个测试文件(未标记,可以是无神论者或运动者),并通过在此test.txt上使用预构建的词典,我可以分析其在该词典/模型下的压缩程度。
谢谢
像gzip和zlib中一样,放气编码器不会“构建”字典。他们只是简单地使用之前的32K字节作为与当前位置开始的字节字符串进行潜在匹配的源。最后的32K字节称为“字典”,但名称可能会引起误解。
您可以使用zlib尝试使用预设词典。请参阅deflateSetDictionary()和inflateSetDictionary()功能。在这种情况下,zlib压缩以32K字节的“字典”作为首字母,该字典实际上在被压缩的第一个字节之前作为匹配源,但字典本身未压缩。启动只能改善前32K字节的压缩。此后,预设字典就太远了,无法提供匹配。
deflateSetDictionary()
inflateSetDictionary()
gzip不支持预设字典。