哈希表学习笔记
解决冲突的两种方法
分离连接法
散列表的装填因子(load factor)为散列表中元素的个数与散列表大小的比值。表的大小并不重要,装填因子才是最重要的。
分离连接散列的一般法则是使得表的大小尽量与预料的元素个数差不多(换句话说,装填因子 ≈ 1)
开放定址法
在开放定址散列算法系统中,如果有冲突发生,那么就要尝试选择另外的单元。h0(x), h1(x), … 逐个尝试
其中 hi(x) = (hash(x) + F(i)) mod tableSize,其中F(i)是解决冲突的方法。一般来说,开放定址法的散列算法其装填因子 lambda <= 0.5
定理证明
将乘法运算转换成位运算
令 F(0)=0
且 F(i)=F(i−1)+2⋅i−1
,则 F(i)=i2
。
证明过程:
F(0)=0
F(1)=F(0)+(2⋅1)−1
F(0)+F(1)+F(2)+...+F(i)=0+F(0)+(2⋅1)−1+(2⋅2)−1+...+F(i−1)+(2⋅i)−1
F(i)=(2⋅1)−1+(2⋅2)−1+...+(2⋅i)−1
F(i)=1+3+5+...+2⋅i−1
F(i)=21+2⋅i−1=i2
这样就将一个乘法运算转换成了一个位移运算,提高了效率。
平方探测法总可向空间大于1/2的哈希表中插入元素
相关定理:
- (a+b)modn=(amodn+bmodn)modn
- (amodn)modn=amodn
定理说明
如果使用平方探测,且表的大小是素数,那么当表至少有一半为空的时候,总能够插入一个新的元素
证明
哈希表大小为ts,我们向其中插入了两个冲突的元素x和y。这两个元素冲突重试的次数分别是i和j。其中:
0<i,j<2ts
(小于 2ts
意味着表中还有多余一半的空间可以使用)
Px=(Hash(x)+i2)modts
(x
位置)
Py=(Hash(y)+j2)modts
(y
位置)
Hash(x)modts=Hash(y)modts=>(Hash(x)−Hash(y))modts=0
其中 ts
是素数。
试证明,如果i=j
,那么Px=Py
假设上述定理是不成立的,则i=j
时,Px=Py
Px=Py
(Hash(x)+i2)modts=(Hash(y)+j2)modts
(Hash(x)+i2)modts−(Hash(y)+j2)modts=0modts
(Hash(x)+i2−Hash(y)−j2)modts=0
[(Hash(x)−Hash(y))modts+(i2−j2)modts]modts=0
(i2−j2)modts=0
-
因为i,j<2ts
,所以(i2−j2)<=4(ts−1)2−4(ts−2)2<=2ts−43<ts
-
因为ts是素数,所以(i2−j2)=0
,可得i=±j
-
因为0<i,j
,所以i=j
与已知矛盾,故可得当i=j
时,Px=Py
。
可证明 如果使用平方探测,且表的大小是素数,那么当表至少有一半为空的时候,总能够插入一个新的元素
根据 K2⋅[(ts−1)2−(ts−2)2]<ts
可得K<33⋅ts
,i, j更精确的范围是0<i,j<33⋅ts
。
Last modified 2018年08月29日 / 23:34