一尘不染

字符串的哈希函数

algorithm

我正在使用C语言编写哈希表,并且正在测试字符串的哈希函数。

我尝试的第一个功能是添加ascii代码并使用模(%100),但是在第一次数据测试中我得到的结果很差:130个单词40次冲突。

最终的输入数据将包含8 000个单词(这是字典存储在文件中)。哈希表声明为int table [10000],其中包含单词在txt文件中的位置。

第一个问题是散列字符串的最佳算法是什么?以及如何确定哈希表的大小?

提前致谢 !

:-)


阅读 264

收藏
2020-07-28

共1个答案

一尘不染

我与djb2Dan Bernstein 取得了不错的成绩。

unsigned long
hash(unsigned char *str)
{
    unsigned long hash = 5381;
    int c;

    while (c = *str++)
        hash = ((hash << 5) + hash) + c; /* hash * 33 + c */

    return hash;
}
2020-07-28