MySQL架构原理

MySQL架构演变

单机单库

主从架构

分库分表

云数据库

MySQL体系架构概述

MySQL Server架构自顶向下大致可以分网络连接层、服务层、存储引擎层和系统文件层

网络连接层

客户端链接器(Client Connectors)：指能够与MySQL服务器建立连接的客户端。目前几乎支持所有主流的服务端编程技术

服务层(MySQL Server)

服务器层是MySQL Server的核心，主要包含系统管理和控制工具、连接池、SQL接口、解析器、查询优化器和缓存六个部分

连接池(Connection Pool): 负责存储和管理客户端与数据库的连接，一个线程负责管理一个连接
系统管理和控制工具(Management Services & Utilities)：例如备份恢复、安全管理、集群管理等
SQL接口（SQL Interface）：用于接收客户端发送的各种SQL命令，并返回用户需要查询的结果。例如DML、DDL、存储过程、视图、触发器等
解析器（Parser）：负责将请求的SQL解析生成一个解析树，然后根据一些MySQL规则进一步检查解析树是否合法
查询优化器（Optimizer）：当解析树通过解析器语法检查后，将交由优化器将其转化成执行计划，然后与存储引擎交互
缓存（Cache & Buffer）：缓存机制是由一系列小缓存组成的。例如表缓存、记录花奴才能、权限缓存、引擎缓存等，如果查询缓存有命中的查询结果，查询语句就可以直接去查询缓存中取数据

存储引擎层（Pluggable Storage Engines）

存储引擎负责MySQL中数据的存储与提取,与底层系统文件进行交互。MySQL存储引擎是插件式的，服务器中的查询执行引擎通过接口与存储引擎进行通信，接口屏蔽了不同存储引擎之间的差异。现在有很多种存储引擎，各有各的特点，做异常件的是MyISAM和InnoDB

系统文件层（File System）

该层负责将数据库的数据和日志存储在文件系统之上，并完成与存储引擎的交互，是文件的物理存储层。主要包含日志文件，数据文件，配置文件，pid文件，Socket文件等

日志文件
- 错误日志（Erroe log）：输入show variables like ‘%log_err%’,可以查询到err日志的位置
- 通用查询日志（General query log）： show variables like ‘%general%’
- 二进制日志（binary log）：记录了对MySQL数据库执行的更改操作，并且记录了语句的发生时间、执行时长、但是不记录Selec、show等不修改数据库的SQL，主要用于数据库恢复和主从复制
- 慢查询日志（Slow query log）：记录所有执行时间超时的查询SQl，默认是10秒
配置文件：存放MySQL所有的配置信息文件，比如my.cnf、my.ini等
数据文件
- db.opt 文件：记录这个库的默认使用的字符集和校验规则
- frm文件：存储与表相关的元数据信息，包括表结构的定义信息等，每一张表都会有一个frm文件
- MYD文件：MyISAM存储引擎专用，存放MyISAM表的数据，每一张表都会有一个.MYD文件
- MYI文件：MyISAM存储引擎专用，存放MyISAM表的索引先关信息，每一张MyIASM表对应一个.MYI文件
- ibd文件和IBDATA文件：存放InnoDB的数据文件(包括索引)。InnoDB存储引擎有两种表空间方式：独享表空间和共享表空间。独享表空间使用.ibd文件来存放数据，且每一张InnoDB表对应一个.ibd文件。共享表空间使用.ibdata文件所有表共同使用一个（或多个，自行配置）.ibdata文件
- ibdata1文件：系统表空间数据文件，存储表元数据、Undo日志等
- ib_logfile0\ib_logfile1文件：Redo log日志文件
pid文件：pid文件是mysqlid应用程序在unix\linux环境下的进程文件，和许多其他Unix/Linux服务端程序一样，它存放着自己的进程id
socket文件： socket文件也是在Unix/Linux环境下才有的，用户在Unix/Linux环境下客户端连接可以不通过TCP/IP网络而直接使用Unix Socket来连接MySQL

SQL运行机制

MySQL连接机制

通过客户端/服务端通信协议与MySQL建立连接。MySQL客户端与服务端的通信方式是”半双工”。对于每一个MySQL连接，时刻都有一个线程状态来标识这个连接正在做什么
使用show processlist 查看用户的线程的运行状态，root可以查看所有的用户线程，其余用户只能查看对应权限的线程，如果想查看线程的完整信息需要show full processlist命令

id：线程id，可以使用kill xx杀死该线程
user：启动这个线程的用户
Host：发送请求的客户端的IP和端口号
db：当前命令在哪个库执行
Command：该线程正在执行的操作命令
- Create DB：正在创建库操作
- Drop DB：正在删除库操作
- Execute：正在执行一个PreparedStatement
- Close Stmt：正在关闭一个PreparedStatement
- Query：正在执行一个语句
- Sleep：正在等待客户端发送语句
- Quit：正在退出
- Shutdown：正在关闭服务器
Time：标识该线程处于当前状态的时间，单位是秒
State：线程状态
- Updating: 正在搜索匹配记录,进行修改
- Sleeping:正在等待客户端发送新请求
- Starting：正在执行请求处理
- Chefcking table：正在检查数据库
- Closing table：正在将表中数据刷新到磁盘中
- Locked：被其他查询锁住了记录
- Sending Data：正在处理Select查询，同时将结果发送给客户端
Info：一般记录线程执行的语句，默认显示前100个字符，想查看完整的使用show full processlist

MySQL查询缓存机制

这是MySQL的一个可优化查询的地方，如果开启了查询缓存且在查询缓存过程中查询到完全相同的SQL语句，则将查询结果直接返回给客户端;如果没有开启查询缓存或者没有查询到完全相同的SQL语句则会由解析器进行语法语义解析，并生成”解析树”

缓存Select查询的结果和SQL语句
执行Select查询时，先查询缓存，判断是否存在可用的记录集，要求是否完全相同(包括参数值)，这样才会匹配缓存数据命中
可以通过show variables like ‘%query_cache%’找到对应的参数，如果是想查看缓存细节的话需要使用如下命令show status like ‘%Qcache%’
既是开启了查询缓存，以下SQL也不能缓存
- 查询语句使用SQL_NO_CACHE
- 查询结果大于query_cache_limit设置
- 查询中有一些不确定的参数，比如now()

MySQL解析和优化机制

解析器(Parser)

解析器将客户端发送的SQL进行语法解析，生成”解析树”。预处理器根据一些MySQL规则进一步检查”解析树”是否合法，例如这里将检查数据表和数据列是否存在，还会解析名字和别名，看看它们是否有歧义，最后生成新的”解析树”

查询优化器(Optimizer)

查询优化器根据”解析树”生成最优的执行计划，MySQL使用很多优化策略生成最优的执行计划，可以分为两类：静态优化（编译时优化）、动态优化（运行时优化）

等价变换策略
- 5=5 and a > 5 改成 a > 5
- a < b and a=5 改成b>5 and a = 5
- 基于联合索引，调整条件位置等
优化count、min、max等函数
- InnoDB引擎min函数只需要找索引最左边
- InnoDB引擎max函数只需要找索引最右边
- MyISAM引擎count(*)，不需要计算，直接返回
提前终止查询
- 使用limit查询，获取limit所需的数据，就不在继续遍历后面数据
in的优化
- MySQL对in查询，会先进行排序，再采用二分法查找数据。比如where id in (2,1,3)会变为in (1,2,3)

MySQL执行引擎机制

查询执行引擎负责执行SQL语句，此时查询执行引擎会根据SQL语句中标的存储引擎类型，以及对应的API接口与底层存储引擎或者物理文件的交互，得到查询结果并返回给客户端。若开启查询缓存，这是会将SQL语句和结果完整地保存到查询缓存中，以后若有相同的SQL语句执行则直接返回结果

如果开启查询缓存，先将查询结果做缓存操作
返回结果过多，采用增量模式返回

MySQL存储引擎

存储引擎在MySQL的体系架构中位于第三层，负责MySQL中的数据的存储和提取，是与文件打交道的子系统，它是根据MySQL一共的文件访问层抽象接口定制的一种文件访问机制，这种机制叫做存储引擎
使用show engines命令，可以查看到当前数据库支持的引擎信息。从5.5版本之后，InnoDB为默认存储引擎

InnoDB：支持事务，具有提交、回滚和崩溃恢复能力，事务安全
MyISAM：不支持事务和外键，访问速度快
Memory：利用内存创建表，访问速度非常快，因为数据在内存中，而且默认使用Hash索引，但是一旦关闭，数据就会丢失
Archive：归档类型引擎，仅能支持insert和select语句
Csv：以CSV文件进行数据存储，由于文件限制，所有列必须强制指定not null，另外CSV引擎也不支持索引和分区，适合做数据交换的中间表
BlackHole：黑洞，只进不出，进来消失，所有插入数据都不会保存
Federated：可以访问远端MySQL数据库中的表，一个本地表，不保存数据，访问远程表内容
MRG_MyISAM：一组MyISAM表的组合，这些MyIASM表必须结构相同，Merge表本身没有数据，对Merga操作可以对一组MyISAM表进行操作

InnoDB和MyISAM对比

事务和外键
- InnoDB支持事务和外键，具有安全性和完整性，适合大量insert或update操作
- MyISAM不支持事务和外键，它提供高速存储和检索，适合大量的select查询操作
锁机制
- InnoDB支持行级锁，锁定指定记录。基于索引来加锁实现
- MyISAM支持表级锁，锁定整张表
索引结构
- InnoDB使用的聚集索引(聚簇索引)，索引和记录在一起存储，即缓存索引，也缓存记录
- MyISAM使用非聚集索引，索引和记录分开
并发处理能力
- MyISAM使用表锁，会导致写操作并发效率低，读之间并不阻塞，读写阻塞
- InnoDB读写阻塞可以与隔离级别有关，可以采用多版本并发控制（MVCC）来支持高并发
存储文件
- InnoDB表对应俩文件，一个.frm表结构文件，一个ibd数据文件，InnoDB表最大支持64TB
- MyISAM表对应三个文件，一个.frm表结构文件，一个MYD表数据文件，一个MYI索引文件，从MySQL5.0开始默认限制是256TB