一尘不染

为什么Java和Go的gzip会得到不同的结果?

go

首先,我的Java版本:

string str = "helloworld";
ByteArrayOutputStream localByteArrayOutputStream = new ByteArrayOutputStream(str.length());
GZIPOutputStream localGZIPOutputStream = new GZIPOutputStream(localByteArrayOutputStream);
localGZIPOutputStream.write(str.getBytes("UTF-8"));
localGZIPOutputStream.close();
localByteArrayOutputStream.close();
for(int i = 0;i < localByteArrayOutputStream.toByteArray().length;i ++){
    System.out.println(localByteArrayOutputStream.toByteArray()[i]);
}

输出为:

31 -117 8 0 0 0 0 0 0 -53 72 -51 -55 -55 47 -49 47 -54 73 1 0 -83 32 -21 -7 10
0 0 0

然后是Go版本:

var gzBf bytes.Buffer
gzSizeBf := bufio.NewWriterSize(&gzBf, len(str))
gz := gzip.NewWriter(gzSizeBf)
gz.Write([]byte(str))
gz.Flush()
gz.Close()
gzSizeBf.Flush()
GB := (&gzBf).Bytes()
for i := 0; i < len(GB); i++ {
    fmt.Println(GB[i])
}

输出:

31 139 8 0 0 9 110 136 0 255 202 72 205 201 201 47 207 47 202 73 1 0 0 0 255
255 1 0 0 255 255 173 32 235 249 10 0 0 0

为什么?

我以为这可能是最初由这两种语言的不同字节读取方法引起的。但是我注意到0永远不能转换为9 []byte

我写错了代码吗?有什么方法可以使我的Go程序获得与Java程序相同的输出?

谢谢!


阅读 398

收藏
2020-07-02

共1个答案

一尘不染

RFC 1952开始,GZip文件头的结构如下:

+---+---+---+---+---+---+---+---+---+---+
|ID1|ID2|CM |FLG|     MTIME     |XFL|OS | (more-->)
+---+---+---+---+---+---+---+---+---+---+

查看您提供的输出,我们有:

                          |    Java |          Go
ID1                       |      31 |          31
ID2                       |     139 |         139
CM (compression method)   |       8 |           8
FLG (flags)               |       0 |           0
MTIME (modification time) | 0 0 0 0 | 0 9 110 136
XFL (extra flags)         |       0 |           0
OS (operating system)     |       0 |         255

因此,我们可以看到Go正在设置标头的修改时间字段,并将操作系统设置为255(未知)而不是0(FAT文件系统)。在其他方面,它们表示文件是以相同方式压缩的。

通常,这些差异是无害的。如果要确定两个压缩文件是否相同,则应真正比较文件的解压缩版本。

2020-07-02