数据结构:散列表——如何实现布隆过滤器
toqiye 2024-12-16 16:18 33 浏览 0 评论
一、定义
散列表也叫作哈希表(hash table),
这种数据结构提供了键(Key)和值(Value)的映射关系。
只要给出一个Key,就可以高效查找到它所匹配的Value,时间复杂度接近于O(1)。
二、存储原理
散列表在本质上也是一个数组。
散列表的Key则是以字符串类型为主的,
通过hash函数把Key和数组下标进行转换,
作用是把任意长度的输入通过散列算法转换成固定类型、固定长度的散列值。
//数组下标=取key的hashcode模数组的长度后的余数
index = HashCode (Key) % Array.length
//index的范围是(0-9)
int index=Math.abs("Hello".hashCode())%10;
这是最简单的计算方式 还有很多hash函数:CRC16、CRC32、siphash 、murmurHash、times 33等,
此种Hash计算方式为固定Hash方式,也称为传统Hash。
该方式在数组固定时,可以快速检索 但当数组长度变化时,需要重新计算数组下标,此时根据key检索将出现问题,
所以说传统Hash法虽然比较简单,但不利于扩展,如果要扩展可以采用一致性Hash法。
三、操作
1、写操作(put)
写操作就是在散列表中插入新的键值对(在JDK中叫作Entry或Node)
第1步,通过哈希函数,把Key转化成数组下标
第2步,如果数组下标对应的位置没有元素,就把这个Entry填充到数组下标的位置。
2、Hash冲突(碰撞)
由于数组的长度是有限的,当插入的Entry越来越多时,不同的Key通过哈希函数获得的下标有可能是相同的,这种情况,就叫作哈希冲突。
3、解决Hash冲突方案
【1】开放寻址法
开放寻址法的原理是当一个Key通过哈希函数获得对应的数组下标已被占用时,就寻找下一个空档位置
在Java中,ThreadLocal所使用的就是开放寻址法。
【2】链表法
数组的每一个元素不仅是一个Entry对象,还是一个链表的头节点。
每一个Entry对象通过next指针 指向它的下一个Entry节点。
当新来的Entry映射到与之冲突的数组位置时,只需要插入到对应的链表中即可,默认next指向null。
/**
* 结点
*/
public class Node {
String key;
String value;
// 指向下一个结点
Node next;
public Node(String key, String value, Node next) {
this.key = key;
this.value = value;
this.next = next;
}
}
/**
* 单链表
*/
public class ListNode {
Node head; //头结点
/**
* 添加单链表结点
* 单链表中可存在相同key,但相同key的value值要相同
* 当前链表尾节点的下一个指针指向新增节点,从而新增结点成为尾节点
* @param key
* @param value
*/
public void addNode(String key, String value) {
//在外界设置好head了
if (head == null) return;
// 创建结点
Node node = new Node(key, value, null);
// 临时变量
Node tmp = head;
//循环单链表
while (true) {
//key相同覆盖值 从head开始
if (key.equals(tmp.key)) {
tmp.value = value;
}
if (tmp.next == null) {
break;
}
//指向下一个
tmp = tmp.next;
}
//当前尾结点的下一个指针指向新增的结点
tmp.next = node;
}
}
/**
* 手动HashMap
*/
public class MyHashMap {
//数组初始化 2的n次方
ListNode[] map = new ListNode[8];
//ListNode的个数
int size;
/**
* 设置值
*
* @param key
* @param value
*/
public void put(String key, String value) {
//该扩容了
if (size >= map.length * 0.75) {
System.out.println("map需要扩容");
return;
}
//计算索引 数组下标
int index = Math.abs(key.hashCode()) % map.length;
//获得该下标处的ListNode
ListNode ln = map[index];
//该下标处无值
if (ln == null) {
//创建单链表
ListNode lnNew = new ListNode();
//创建头结点
Node head = new Node(key, value, null);
//挂载头结点
lnNew.head = head;
//把单链放到数组里
map[index] = lnNew;
size++;
}
//该下标有值,hash碰撞
else {
//单链表挂结点
ln.addNode(key, value);
}
}
}
当根据key查找值的时候,在index=2的位置是一个单链表 遍历该单链表,再根据key即可取值。
4、读操作(get)
读操作就是通过给定的Key,在散列表中查找对应的Value。
第1步,通过哈希函数,把Key转化成数组下标。
第2步,找到数组下标所对应的元素,如果key不正确,说明产生了hash冲突, 则顺着头节点遍历该单链表,再根据key即可取值。
/**
* 单链表
*/
public class ListNode {
Node head; //头结点
/**
* 获得值
*
* @param key
* @return
*/
public String getVal(String key) {
if (head == null) return null;
//只有一个结点
if (head.next == null) {
return head.value;
}
//遍历单链表
else {
Node tmp = head;
while (tmp != null) {
//找到匹配的key
if (key.equals(tmp.key)) {
return tmp.value;
}
//指向下一个
tmp = tmp.next;
}
return null;
}
}
}
/**
* 手动HashMap
*/
public class MyHashMap {
//数组初始化 2的n次方
ListNode[] map = new ListNode[8];
//ListNode的个数
int size;
/**
* 取值
* @param key
* @return
*/
public String get(String key){
int index=Math.abs(key.hashCode())%map.length;
ListNode ln=map[index];
if(ln==null) return null;
return ln.getVal(key);
}
}
5、Hash扩容(resize)
散列表是基于数组实现的,所以散列表需要扩容。
当经过多次元素插入,散列表达到一定饱和度时,Key映射位置发生冲突的概率会逐渐提高。
这样 一来,大量元素拥挤在相同的数组下标位置,形成很长的链表,对后续插入操作和查询操作的性能都有很大影响。
影响扩容的因素有两个
Capacity:HashMap的当前长度;
LoadFactor:HashMap的负载因子(阈值),默认值为0.75f。
当HashMap.Size >= Capacity×LoadFactor时,需要进行扩容 扩容的步骤:
【1】 扩容,创建一个新的Entry空数组,长度是原数组的2倍
【2】 重新Hash,遍历原Entry数组,把所有的Entry重新Hash到新数组中
关于HashMap的实现,JDK 8和以前的版本有着很大的不同。当多个Entry被Hash到同一个数组下标位 置时,为了提升插入和查找的效率,HashMap会把Entry的链表转化为红黑树这种数据结构。
JDK1.8前在HashMap扩容时,会反序单链表,这样在高并发时会有死循环的可能。
四、时间复杂度
1、Hash扩容:O(n) n是数组元素个数 rehash
2、Hash冲突写单链表:O(m)
3、写操作: O(1) + O(m) = O(m) m为单链元素个数
4、Hash冲突读单链表:O(m) m为单链元素个数
5、读操作:O(1) + O(m) m为单链元素个数
五、优缺点
1、优点:读写快
2、缺点:哈希表中的元素是没有被排序的、Hash冲突、扩容重新计算
六、应用
1、HashMap
JDK1.7中HashMap使用一个table数组来存储数据,
用key的hashcode取模来决定key会被放到数组里的位置,
如果hashcode相同,或者hashcode取模后的结果相同,
那么这些key会被定位到Entry数组的 同一个格子里,这些key会形成一个链表,
在极端情况下比如说所有key的hashcode都相同,将会导致这个链表会很长,
那么put/get操作需要遍历整个链表,那么最差情况下时间复杂度变为O(n)。
扩容死链针对JDK1.7中的这个性能缺陷,JDK1.8中的table数组中可能存放的是链表结构,也可能存放的是红黑树结构,
如果链表中节点数量不超过8个则使用链表存储,
超过8个会调用treeifyBin函数,将链表转换红黑树。那么即使所有key的hashcode完全相同,由于红黑树的特点,查找某个特定元素,也只需要 O(logn)的开销。
2、字典
Redis字典dict又称散列表(hash),是用来存储键值对的一种数据结构。
Redis整个数据库是用字典来存储的。(K-V结构)
对Redis进行CURD操作其实就是对字典中的数据进行CURD操作。
Redis字典实现包括:字典(dict)、Hash表(dictht)、Hash表节点(dictEntry)。
3、布隆过滤器
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机 hash映射函数。
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般 的算法。
布隆过滤器的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个数组中的K 个点,把它们置为1。
检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。
这就是布隆过滤器的基本思想。
相关推荐
- Star 17.3k!给它一张屏幕截图,即可一键克隆网页!
-
本文为大家分享一款本周爆火的GPT开源项目。前言你敢信,只凭借着一张屏幕截图即可转换生成HTML/TailwindCSS代码。可以算得上是前端工程师的福音。它就是screenshot-to-...
- AI从截图直接生成代码、前端程序员的福利!
-
简介项目可以将任何屏幕截图或设计转换为干净的代码(支持大多数框架)。来自领先公司的开发人员和设计师使用的排名第一的工具。完全开源,在GitHub上拥有超过35,000颗星。非常受欢迎。各位小伙...
- 一款高颜值、跨平台、自托管的免费开源CRM项目——Twenty
-
前言大家好,这里是可爱的Cherry。作为一个“甲方”,Cherry其实挺知道客户管理的重要的。但是对于客户管理怎么做,以及CRM的作用,我却是一无所知。之前有朋友在评论区留言,说有没有开源的CRM系...
- 解放双手,前端界面再也不用自己写了?
-
随着AI技术的发展,现在有越来越多的尝试将AI应用于UI设计和开发中,以期提高效率和降低成本。今天就给大家介绍一个开源的AI网页生成工具:OpenUIOpenUIOpenUI是一个创...
- 代码调试,教给你(代码调试是什么意思)
-
昨天我和一些朋友一起调试代码,他们做程序员这一行都不太久,我向他们展示了一些代码调试技巧。今天早上我在想,我应该如何教授他们学习代码调试?我在Twitter上发了一条推文说,我从来没有见过任何好的调试...
- Screenshot-to-code:用屏幕截图生成代码
-
Screenshot-to-code是一个简单的工具,可使用AI将屏幕截图、模型和Figma设计转换为干净、实用的代码。现在支持ClaudeSonnet3.5和GPT-4o!Scre...
- next实现原理(next method)
-
Next.js是一个基于React的服务器端渲染(SSR)和静态生成(SSG)框架,它的实现原理涉及多个关键技术点,包括服务端渲染(SSR)、静态生成(SSG)、客户端渲染(CSR)、...
- 可逐步操作的具体流程(可逐步操作的具体流程包括)
-
假设你是一个单人开发者,使用主流技术栈(React+Node.js+MySQL),以下是详细步骤:---###**一、需求分析与原型设计**1.**核心功能清单**-用户能添加、删除、...
- 截图转代码只需1步!你离高效开发只差这款神器
-
引言在现代前端开发中,将设计稿转换为代码是一个既重要又耗时的环节。手动编写HTML结构、调试CSS样式、调整布局对齐,不仅耗费时间,还容易出错。而Screenshot-to-Code这款革...
- web开发 前端 后端(web开发前端后端)
-
区别:1、前端是指用户可见的界面,而后端是指用户看不到的东西,考虑底层业务逻辑的实现,平台的稳定性、性能等。2、前端开发用到的技术有HTML5、CSS3、JS、jQuery、Bootstrap、Nod...
- 手把手教你Dify私有化部署,打造专属AI平台
-
一、Dify是什么?Dify是一款极具创新性的开源LLM应用开发平台,它就像是一把万能钥匙,为开发者们打开了通往生成式AI应用开发新世界的大门。其融合了后端即服务(BackendasS...
- 前后端分离架构设计:提升开发效率与业务支撑力的密钥
-
前后端分离架构设计解析一、定义与核心思想前后端分离是一种将用户界面(前端)与业务逻辑(后端)解耦的架构模式,通过RESTfulAPI或GraphQL实现数据交互。前端专注于视图渲染与交互逻辑...
- Kubernetes最小部署单元Pod(kubernetes最小部署单元)
-
一、Kubernetes与Pod简介在当今云计算和容器化技术盛行的时代,Kubernetes已然成为容器编排领域的中流砥柱。它是一个开源的容器编排平台,由Google基于其内部使用的Bo...
- 【程序员必藏!零基础本地部署DeepSeek大模型保姆级教程】
-
为什么选择本地部署?数据安全:敏感代码/业务数据永不外传闪电响应:局域网推理延迟<100ms,告别云端排队深度定制:自由修改模型代码,打造专属AI助手准备工具(5分钟搞定)1核心工具下载...
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
-
这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- minorgc (62)
- systemproperties (77)
- vue3-template-admin (63)
- electronsqlite3 (65)
- npm版本管理 (61)
- materialtheme (86)
- node-ssh (68)
- 图床搭建 (62)
- vue3addeventlistener (60)
- mybatisselectone (78)
- css圆形进度条 (69)
- androidble蓝牙开发 (62)
- android-gif-drawable (60)
- appender-ref (64)
- springbootmockito (68)
- 依赖注入的方式 (62)
- cookie跨域共享 (63)
- easyexcel导出图片 (77)
- dp数组 (61)
- js获取兄弟节点 (68)
- sysctl-a (60)
- window.target (62)
- apimodel注解的作用 (60)
- window.onerror (66)
- springmvc教程 (65)