一、Mysql为什么只能支持2000w左右的数据量
简而言之,是B+树的层数问题。
假设表中一行记录的数据大小为1k(实际上现在很多互联网业务数据记录大小通常就是1K左右)
所以(主键索引中)叶子节点的一个节点(即一个page,且为数据页),在这里认为可以放16行记录.
假设主键ID为bigint类型(长度为8字节),而指针大小在InnoDB源码中是6字节,这样一共14字节,我们一个页(Page,在此为目录页)中能存放多少这样的(索引)单元,其实就代表有多少指针,即16384/14=1170。即一个目录Page,能存大概1170个(索引)单元.
那么可以算出一棵高度为2的B+树,能存放1170*16=18720条这样的数据记录。
根据同样原理, 可以算出一个高度为3的B+树可以存放:1170*1170*16=21902400条这样的记录。
所以在InnoDB中B+树高度一般为1-3层,就能满足千万级的数据存储。在查找数据时一次页的查找代表一次磁盘IO,所以通过主键索引查询通常只需要1-3次IO操作即可查找到数据。
所以如果 表A的数据行数为600多万,B+树高度为3;表B的数据行数只有15万,B+树高度也为3。可以看出尽管数据量差异较大,这两个表树的高度都是3,换句话说这两个表通过索引查询效率并没有太大差异,因为都只需要做3次IO。如果有一张表行数是一千万,那么其B+树高度依旧是3,查询效率仍然不会相差太大。
当然如果一张表只有5行数据,那么它的B+树高度为1。
即当数据量在18720到21902400行之间时,B+树的高度都是3,查询的速度几乎相同.
因为二分查找是在内存里边进行的,速度很快.和磁盘IO差几个数量级,可以忽略. 那么即从2万行记录到2200万行记录,主体的查询性能差不多。
延伸阅读:
二、数据库的查询功能实现原理
数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快,因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找(linear search),这种复杂度为O(n)的算法在数据量很大时显然是糟糕的,好在计算机科学的发展提供了很多更优异的查找算法,例如二分查找(binary search)、二叉树查找(binary tree search)等。如果稍微分析一下会发现,每种查找算法都只能应用于特定的数据结构之上,例如二分查找要求被检索数据有序,而二叉树查找只能应用于二叉查找树上,但是数据本身的组织结构不可能完全满足各种数据结构(例如,理论上不可能同时将两列都按顺序进行组织),所以,在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。