cmu15445 查询执行- 下并行

date

Jul 17, 2023

slug

query-execution-2

status

Published

Background

之前讨论的前提是数据库在单线程的跑，单用户，单条执行的过程这节讨论多用户，并发场景

WHY

吞吐量：针对并发多条语句的并发单位时间能够执行的语句数量

延迟：针对单条语句的并发单条语句执行的时间

提高响应和可用

更少的机器更快的完成

PARALLEL VS.DISTRIBUTED

并行DBMS

资源在物理上彼此靠近。
资源通过高速互连进行通信。比如共享内存
通信被认为是简易和可靠的。

分布式DBMS

资源可以彼此远离。
资源使用慢速互连网进行通信。
通信成本和问题不容忽视。比如中断

AGENDA

Process Models

Execution Parallelism

I/O Parallelism

PROCESS MODEL

三种方式

PROCESS PER WORKER

依赖 os 调度器

共享内存用来进程间通信

一个进程 crash 不会让整个系统宕机

Dispatcher 调度员

比较老，进程模型，操作线程不容易

PROCESS POOL

如果并发量大，进程很多，吃资源

自然引出进程池

THREAD PER WORKER

随着 os 发展出现了 pthread 封装

线程模型出现

一个线程 crash 带动整个系统宕机

一个进程里线程之间的切换开销小

因为同一个进程下的多个线程天然共享内存的，

内存分配是按进程来分配的

一个进程内演化出的多线程天然共享内存

每个工作线程模型并不意味着DBMS支持查询内并行性。这个是多条并行的机制

SCHEDULING

它应该使用多少个任务？

它应该使用多少个CPU内核？

任务应该在哪个CPU内核上执行？

任务应该将其输出存储在哪里？

DBMS总是比操作系统知道更多估计在吐槽 mmap

Execution Parallelism

INTER-VS.INTRA-QUERY PARALLELISM

查询之间和查询内部的并发处理

不同查询并发执行

增加吞吐
降低延迟

查询内部并发

显著降低 ap 查询时间

INTER-QUERY PARALLELISM 查询间并行

通过允许同时执行多个查询来提高整体性能。

如果查询是只读的，那么这几乎不需要查询之间的协调。

如果多个查询同时更新数据库，那么这很难正确执行……后边事务主题讨论

INTRA-QUERY PARALLELISM 查询内并行

通过并行执行其算子来提高单个查询的性能。

从生产者/消费者范式的角度考虑的组织。

每个运算符都有并行版本。

可以让多个线程访问集中的总数据
或使用分区来划分工作。

一个例子

分区后，使用单独的工作线程为R和S的每个级别的存储桶执行join。

执行完成后再聚合起来

INTRA-QUERY PARALLELISM 细说三种方式

如果把并行执行模型看作是cpu执行指令
Intra-Parallism就像是SIMD，比如对于浮点运算使用更大更宽甚至多个寄存器同时运算；
Inter-Parallism就像是流水线，有些硬件做取指令，有些硬件做解析指令，有些硬件做运算；
Bushy就是今天的cpu，每一硬件负责一个阶段的事情，而每个阶段有大量硬件同时干同一件事