Python：Inflate和Deflate实现

一尘不染

Python：Inflate和Deflate实现

我正在与一台服务器交互，该服务器要求使用 Deflate 算法（霍夫曼编码+ LZ77）压缩发送给它的数据，并且还发送需要 Inflate的数据 。

我知道Python包含Zlib，并且Zlib中的C库支持对 Inflate 和 Deflate的 调用，但是这些显然不是Python
Zlib模块提供的。它确实提供 Compress 和 Decompress ，但是当我进行如下调用时：

result_data = zlib.decompress( base64_decoded_compressed_string )

我收到以下错误：

Error -3 while decompressing data: incorrect header check

Gzip并没有更好。拨打电话时，例如：

result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()

我收到错误：

IOError: Not a gzipped file

这是有道理的数据是平减文件不是真正的 Gzip压缩 文件。

现在我知道有可用的 Deflate 实现（Pyflate），但是我不知道 Inflate 实现。

似乎有一些选择：

在Python中找到 Inflate 和 Deflate 的现有实现（理想）
将我自己的Python扩展写入包含 Inflate 和 Deflate 的zlib c库 __
调用可以从命令行执行的其他内容（例如Ruby脚本，因为zlib中的 Inflate / Deflate 调用完全封装在Ruby中）
？

我正在寻找解决方案，但缺少解决方案，我将感谢您的见解，建设性意见和想法。

附加信息 ：对字符串进行紧缩（和编码）的结果，出于我的需要，应提供与以下C＃代码段相同的结果，其中输入参数是对应于要压缩的数据的UTF字节数组：

public static string DeflateAndEncodeBase64(byte[] data)
{
    if (null == data || data.Length < 1) return null;
    string compressedBase64 = "";

    //write into a new memory stream wrapped by a deflate stream
    using (MemoryStream ms = new MemoryStream())
    {
        using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
        {
            //write byte buffer into memorystream
            deflateStream.Write(data, 0, data.Length);
            deflateStream.Close();

            //rewind memory stream and write to base 64 string
            byte[] compressedBytes = new byte[ms.Length];
            ms.Seek(0, SeekOrigin.Begin);
            ms.Read(compressedBytes, 0, (int)ms.Length);
            compressedBase64 = Convert.ToBase64String(compressedBytes);
        }
    }
    return compressedBase64;
}

对字符串“ deflate and encoding me”运行此.NET代码可获得结果

7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==

当通过Python Zlib.compress（）运行“压缩并编码我”，然后对base64进行编码时，结果为“
eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k =“。

显然，zlib.compress（）与标准Deflate算法不是同一算法的实现。

更多信息 ：

在b64解码之后，.NET的前2个字节放气数据（“ 7b0HY
…”）为0xEDBD，它不对应于Gzip数据（0x1f8b），BZip2（0x425A）数据或Zlib（0x789C）数据。

b64解码后，Python压缩数据的前2个字节（“ eJxLS …”）为0x789C。这是Zlib标头。

解决了

要处理原始的deflate和inflate，不使用标头和校验和，需要进行以下操作：

在压缩/压缩时：剥离前两个字节（标头）和后四个字节（校验和）。

在膨胀/解压缩时：窗口大小有第二个参数。如果此值为负，则禁止标题。这是我目前的方法，包括base64编码/解码-可以正常工作：

import zlib
import base64

def decode_base64_and_inflate( b64string ):
    decoded_data = base64.b64decode( b64string )
    return zlib.decompress( decoded_data , -15)

def deflate_and_base64_encode( string_val ):
    zlibbed_str = zlib.compress( string_val )
    compressed_string = zlibbed_str[2:-4]
    return base64.b64encode( compressed_string )

阅读 1524

2020-05-19

共1个答案

一尘不染

这是MizardX答案的附加组件，提供了一些说明和背景。

参见 http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-
length-does-not-
match.html

根据RFC 1950，以默认方式构造的zlib流包括：

2字节的标头（例如0x78 0x9C）
放气流-参见RFC 1951
未压缩数据的Adler-32校验和（4个字节）

C＃DeflateStream在放气流上工作（您猜对了）。MizardX的代码告诉zlib模块数据是原始的deflate流。

观察结果：（1）有人希望C＃的“放气”方法产生更长的字符串仅在输入短时才会发生（2）是否使用未使用Adler-32校验和的原始放气流？有点冒险，除非用更好的东西代替。

更新

错误信息Block length does not match with its complement

如果您尝试使用C＃充入一些压缩数据DeflateStream并收到该消息，则很有可能将其提供给zlib流，而不是deflate流。

请参阅如何在文件的一部分上使用DeflateStream？

还将错误消息复制/粘贴到Google搜索中，您将获得无数次点击（包括此答案前面的几则），说的差不多。

Deflater
“网站”使用 的Java … C＃DeflateStream“非常简单，并且已经针对Java实现进行了测试”。网站正在使用以下哪些可能的Java
Deflater构造函数？

public Deflater(int level, boolean nowrap)

使用指定的压缩级别创建一个新的压缩器。如果’nowrap’为true，则将不使用ZLIB标头和校验和字段以支持在GZIP和PKZIP中使用的压缩格式。

public Deflater(int level)

使用指定的压缩级别创建一个新的压缩器。压缩数据将以ZLIB格式生成。

public Deflater()

使用默认压缩级别创建一个新的压缩器。压缩数据将以ZLIB格式生成。

*丢弃2字节的zlib标头和4字节的校验和后 *的单行压缩器：

uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x

要么

zlib.compress(uncompressed_string)[2:-4]

2020-05-19