一、使用 open addressing 的 Hash 表载荷过高会降低 CPU 的缓存命中率的原因
在计算机程序中,哈希表(Hash Table)是一种常见的数据结构,它用于实现字典、集合等高效的数据存储和检索。其中,开放寻址(Open Addressing)是一种哈希表的实现方式,它采用线性探测或二次探测等方式解决哈希冲突,将元素直接存储在哈希表中,而不是通过链表等方式链接在一起。
当哈希表中元素的数量超过哈希表的容量时,哈希表的载荷因子就会增加,这意味着哈希表中每个桶中存储的元素数量也会增加。当载荷因子过高时,哈希表的性能可能会受到影响。
1、哈希表的查找效率受缓存命中率的影响
CPU 中的缓存是一种高速存储器,用于暂时存储最近使用过的数据。当 CPU 访问内存时,它通常会先从缓存中查找数据,如果数据存在于缓存中,就可以快速访问它,否则需要从内存中加载数据,这会消耗更多的时间。当哈希表中的元素数量过多时,它们可能无法完全存储在缓存中,这就会导致 CPU 在访问哈希表时频繁地从内存中加载数据,从而降低了缓存命中率。
2、哈希表的冲突率可能会增加
当哈希表的载荷因子过高时,不同的元素可能会被哈希到相同的桶中,这就会导致哈希表的冲突率增加。为了解决冲突,哈希表需要进行线性探测或二次探测等操作,这会增加程序访问内存的次数,从而降低了缓存命中率。