此篇再谈一下MySQL相关的几个关键问题。
关键问题
性能优化、高可用性、强一致性、安全、备份、集群、横向扩展、纵向扩展、负载均衡、读写分离
分类
主题 | 内容 |
---|---|
单Master | 数据备份、数据还原、备份监控、数据文件远程存储 |
一主一从 | 性能优化、读写分离、负载均衡 |
一主n从 | 数据一致性、脑裂、雪崩、连接池管理 |
横向集群 | 库路由、分布式主键、扩缩容 |
纵向集群 | 表路由、跨表join、分布式事务 |
混合模式 |
单Master
备份机制主要有:
冷备
停机,直接copy物理文件,InnoDB引擎(frm文件、共享表空间文件、独立表空间文件、redo日志文件、my.conf)
热备
使用lbbackup或者XtraBackup工具,记录重做日志文件检查点的LSN,copy共享表空间文件以及独立表空间文件(不产生任何阻塞)
温备
mysqldump、mysqlbinlog
一主一从
性能优化
硬件优化、数据库配置优化、索引优化、表设计等
读写分离
编程实现:区别对待DML、DDL语句
中间件:MySQL Router、MySQL Proxy、Mycat等
负载均衡
编程实现:根据业务实现均衡算法
中间件:MySQL Router、DNS、LVS、L5等
一主n从
数据一致性
MySQL官方套件无法解决一致性
支持的组件:PhxSQL、全局事务控制
脑裂
解决思路是解决租约、Master选举方面的问题
支持的组件:ZooKeeper、PhxSQL
雪崩
解决思路是对连接池进行管控、拒绝无服务能力的请求
组件:Mycat、sql_relay
连接池管理
横向集群
表集群
无官方组件,自己编程实现,或使用现成中间件,如Mycat
跨库join
分布式事务
基于MySQL DB的两阶段提交协议、消息队列
纵向集群
库路由
跟路由表类似,需要通过编程来实现库路由,也可以用Mycat
分布式主键
扩/缩容
扩缩容对数据的搬迁是无法避免的问题,提前对业务数据的增长情况做预判非常必要
拆分
水平拆分
垂直拆分
分区:按时间拆分
索引
- 主键索引
ALTER TABLE
table_name
ADD PRIMARY KEY (column
);
- 唯一索引
ALTER TABLE
table_name
ADD UNIQUE (column
);
- 联合索引
ALTER TABLE
table_name
ADD INDEX index_name (column1
,column2
,column3
);
- 普通索引
ALTER TABLE
table_name
ADD INDEX index_name (column
);
- 全文索引
ALTER TABLE
table_name
ADD FULLTEXT (column
);
- 空间索引
空间索引是对空间数据类型的字段建立的索引,MySQL中的空间数据类型有4种:geometry、point、linstring和polygon。ALTER TABLE
table_name
ADD spatial index spatidx(g);
事务隔离级别
脏读 | 不可重复读 | 幻读 | |
---|---|---|---|
Read uncommitted | ✅ | ✅ | ✅ |
Read committed | ❎ | ✅ | ✅ |
Repeatable read | ❎ | ❎ | ✅ |
Serializable | ❎ | ❎ | ❎ |
✅ 表示可能发生
数据库并发事务中存在的问题
如果不考虑事务的隔离性,可能会发生以下几种问题:
1. 脏读
脏读是指在一个事务处理过程里读取了另一个未提交的事务中的数据。当一个事务正在多次修改某个数据,而在这个事务中这多次的修改都还未提交,这时一个并发的事务来访问该数据,就会造成两个事务得到的数据不一致。
2. 不可重复读
不可重复读是指在对于数据库中的某条数据,一个事务范围内多次查询返回不同的数据值(这里不同是指某一条或多条数据的内容前后不一致,但数据条数相同),这是由于在查询间隔,该事务需要用到的数据被另一个事务修改并提交了。不可重复读和脏读的区别是,脏读是某一事务读取了另一个事务未提交的脏数据,而不可重复读则是读取了其他事务提交的数据。需要注意的是在某些情况下不可重复读并不是问题。
3. 幻读
幻读是事务非独立执行时发生的一种现象。例如事务T1对一个表中所有的行的某个数据项做了从“1”修改为“2”的操作,这时事务T2又对这个表中插入了一行数据项,而这个数据项的数值还是为“1”并且提交给数据库。而操作事务T1的用户如果再查看刚刚修改的数据,会发现还有一行没有修改,其实这行是从事务T2中添加的,就好像产生幻觉一样,这就是发生了幻读。幻读和不可重复读都是读取了另一条已经提交的事务(这点就脏读不同),所不同的是不可重复读可能发生在update,delete操作中,而幻读发生在insert操作中。
用 explain 分析sql语句
使用explain关键字可以模拟优化器执行sql查询语句,从而得知MySQL 是如何处理sql语句。
+----+-------------+-------+------------+------+---------------+-----+---------+------+------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+-----+---------+------+------+----------+-------+
id
select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序。一般有三种情况:
第一种:id全部相同,sql的执行顺序是由上至下;
第二种:id全部不同,sql的执行顺序是根据id大的优先执行;
第三种:id既存在相同,又存在不同的。先根据id大的优先执行,再根据相同id从上至下的执行。
select_type
select 查询的类型,主要是用于区别普通查询,联合查询,嵌套的复杂查询
simple:简单的select 查询,查询中不包含子查询或者union
primary:查询中若包含任何复杂的子查询,最外层查询则被标记为primary
subquery:在select或where 列表中包含了子查询
derived:在from列表中包含的子查询被标记为derived(衍生)MySQL会递归执行这些子查询,把结果放在临时表里。
union:若第二个select出现在union之后,则被标记为union,若union包含在from子句的子查询中,外层select将被标记为:derived
union result:从union表获取结果的select
partitions
表所使用的分区,如果要统计十年公司订单的金额,可以把数据分为十个区,每一年代表一个区。这样可以大大的提高查询效率。
type
这是一个非常重要的参数,连接类型,常见的有:all , index , range , ref , eq_ref , const , system , null 八个级别。
性能从最优到最差的排序:system > const > eq_ref > ref > range > index > all对java程序员来说,若保证查询至少达到range级别或者最好能达到ref则算是一个优秀而又负责的程序员。
all:(full table scan)全表扫描无疑是最差,若是百万千万级数据量,全表扫描会非常慢。
index:(full index scan)全索引文件扫描比all好很多,毕竟从索引树中找数据,比从全表中找数据要快。
range:只检索给定范围的行,使用索引来匹配行。范围缩小了,当然比全表扫描和全索引文件扫描要快。sql语句中一般会有between,in,>,< 等查询。
ref:非唯一性索引扫描,本质上也是一种索引访问,返回所有匹配某个单独值的行。比如查询公司所有属于研发团队的同事,匹配的结果是多个并非唯一值。
eq_ref:唯一性索引扫描,对于每个索引键,表中有一条记录与之匹配。比如查询公司的CEO,匹配的结果只可能是一条记录,
const:表示通过索引一次就可以找到,const用于比较primary key 或者unique索引。因为只匹配一行数据,所以很快,若将主键至于where列表中,MySQL就能将该查询转换为一个常量。
system:表只有一条记录(等于系统表),这是const类型的特列,平时不会出现,了解即可
possible_keys:显示查询语句可能用到的索引(一个或多个或为null),不一定被查询实际使用。仅供参考使用。
key:显示查询语句实际使用的索引。若为null,则表示没有使用索引。
key_len:显示索引中使用的字节数,可通过key_len计算查询中使用的索引长度。在不损失精确性的情况下索引长度越短越好。key_len 显示的值为索引字段的最可能长度,并非实际使用长度,即key_len是根据表定义计算而得,并不是通过表内检索出的。
ref:显示索引的哪一列或常量被用于查找索引列上的值。
rows:根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数,值越大越不好。
extra
Using filesort: 说明MySQL会对数据使用一个外部的索引排序,而不是按照表内的索引顺序进行读取。MySQL中无法利用索引完成的排序操作称为“文件排序” 。出现这个就要立刻优化sql。
Using temporary: 使用了临时表保存中间结果,MySQL在对查询结果排序时使用临时表。常见于排序 order by 和 分组查询 group by。 出现这个更要立刻优化sql。
Using index: 表示相应的select 操作中使用了覆盖索引(Covering index),避免访问了表的数据行,效果不错!如果同时出现Using where,表明索引被用来执行索引键值的查找。如果没有同时出现Using where,表示索引用来读取数据而非执行查找动作。
覆盖索引(Covering Index) :也叫索引覆盖,就是select 的数据列只用从索引中就能够取得,不必读取数据行,MySQL可以利用索引返回select 列表中的字段,而不必根据索引再次读取数据文件。
Using index condition: 在5.6版本后加入的新特性,优化器会在索引存在的情况下,通过符合RANGE范围的条数 和 总数的比例来选择是使用索引还是进行全表遍历。
Using where: 表明使用了where 过滤
Using join buffer: 表明使用了连接缓存
impossible where: where 语句的值总是false,不可用,不能用来获取任何元素
distinct: 优化distinct操作,在找到第一匹配的元组后即停止找同样值的动作。
filtered
一个百分比的值,和rows 列的值一起使用,可以估计出查询执行计划(QEP)中的前一个表的结果集,从而确定join操作的循环次数。小表驱动大表,减轻连接的次数。
通过explain的参数介绍,我们可以得知:
表的读取顺序(id)
数据读取操作的操作类型(type)
哪些索引被实际使用(key)
表之间的引用(ref)
每张表有多少行被优化器查询(rows)