我们目前主流的服务端系统都是分布式的架构。业务分布在不同的机器节点上产生数据,数据也存储在不同的机器节点。为了方便标识数据,我们使用 唯一且有序 的id来标识数据。即:
整个分布式系统中,新生成的id永远不会产生与之前已经生成的id重复;
生成的所有id可以根据生成的时间进行排序(生成时间晚的排序顺序靠后)
我们来看一下市面上的几种主流的id生成方案。
一、mysql 集群
由于我们的讨论前提是分布式架构的系统,所以这里的 mysql 我们默认是集群版。
众所周知,mysql 有自带的唯一id机制,即自增主键,可以保证在同一个数据库中,表内生成的每一条记录都是唯一且有序的。
但是如果放在分布式系统里面,我们用分库/分表的架构存储记录,那就会导致在系统中产生重复的id。
如下图,表1 2 3都是存储相同记录的不同表(可以在同一个数据库里,也可以在不同数据库里),表1 2 3都会产生id相同的数据。
为了解决这个问题,mysql 官方支持数据库 id 生成时设置步长,可以保证不同数据库中相同表的id唯一性。
如上图,每个表都有 不同的起始id和相同的步长 ,这就能保证业务记录id的唯一性。
设置步长的方案虽然解决了id生成的唯一性,但是也有很大的缺点
不能保证id的有序性和时间的强相关。(由于是分布式系统,不能保证id=4的数据一定在id=3的数据后面生成)
每次新增加一个节点,要重置所有节点的起始值和步长。
第二点只是数据库管理会麻烦一些,但是第一点不能满足我们对有序性的要求。
二、id数据库
这里泛指一套单独维护的id数据库,目的是为了保证业务系统内所有的id的唯一性和有序性。
举几个例子,比如mysql维护一条表记录,redis 维护一个key,zookeeper 维护一个序列号。当所有业务都通过调用这些存储服务来生成+获取唯一id的时候,就可以保证生成id的唯一性和有序性。
缺点:
需要资源单独维护一个服务
如果id数据库挂掉,整个业务就会停摆。如果id数据库出现数据错乱,可能会影响到唯一性和有序性
总结一下就是,id数据库可以提供唯一有序的id,但是有一定的维护成本且系统的风险很高。
三、雪花算法
snowflake是twitter公司采用的一种算法,目的是在分布式系统中产生 全局唯一且整体递增 的id。
3.1 生成id的结构
3.2 生成原理
我们先看一下雪花id的生成过程:
生成毫秒级别的时间戳,填充到 41bit 的位置
序列号默认为 000000000000 。如果 新生成的时间戳上次生成的相等 ,序列号就会 + 1。将序列号填充到 12bit 位置
存储当前生成的时间戳到内存中,以便下次生成时判断
获取到当前机器+进程的唯一标识,填充到 10bit 的位置
通过上述整个流程我们可以看到,雪花算法可以确保唯一性,单机内在同一毫秒生成的id会有序列号的递增,多机环境在同一毫秒生成的id会有机器+进程的唯一标识。
但是无法保证强有序性,比如多个机器在同一毫秒内生成的id,就无法按照时间规则进行排序
3.3 缺点
雪花算法除了无法实现严格按照时间的有序性之外,还有一个可能存在的风险点,就是 单机时钟回拨 。
如果一个机器之前已经生成过id,将机器的时间改为之前的时间,那么就有一定几率会生成与之前相同的id。
四、mongodb 的唯一id生成策略
mongo唯一id生成策略——objectid,和雪花算法相似度极高。区别在于雪花算法要占用64个字节,而 objectid 只需要占用 12个字节,但是objectid只能存储秒级别时间戳。
objectid如果用字符串表示则有24个字符,但实际上它是由一组十六进制的字符构成,每个字节两位的十六进制数字,总共用了12字节的存储空间。
比如:6331500a7cac81af7136236b 这个id
秒级时间戳
机器码
进程的pid
序号
mongodb 的 objectid 和雪花算法一样,无法实现严格按照时间的有序性,并且由于是秒级别的时间戳,所以不同机器生成的id,不按照时间排序的可能性会大很多。而且如果单机时钟回拨,也会产生与之前重复的id。
总结
特性/方案mysql 集群id数据库雪花算法mongodb objectid
唯一性 :white_check_mark: :white_check_mark: :white_check_mark: :white_check_mark:
按照生成时间的有序性 :x: :white_check_mark: :x: :x:
维护的难易程度 难 较难 易维护 易维护
在分布式系统中:
以上四种方案都可以保证生成id的唯一性
如果并发量很小的系统,可以考虑 雪花算法/mongodb objectid 方案来保证有序性
如果并发量很大,只能用id数据库来保证有序性,但是会比 雪花算法/mongodb objectid 方案增加维护成本?
河池网站优化的秘诀就是布局好网站关键词位置苏州到惠东物流专线苏州到巢湖物流专线中山到宜阳物流专线如何提高外链的效率济南到建湖物流专线济南到阳泉物流专线代理防火墙如何工作?代理服务器防火墙的优缺点