Write-Behind Logging

这篇论文主要探讨了在传统DBMS系统中，WAL log所扮演的角色和发挥的作用，在NVM设备出现后，DBMS和WAL log原有基于DRAM和磁盘设计的架构并不能完全发挥出NVM设备所提供的特性。WAL log作为DBMS的事务记录以及故障恢复的重要机制，其读写效率大大影响了DBMS系统的写入性能和故障恢复速度。因此作者在此篇论文中，着重讨论了如何基于NVM设备所带来的新特性，来设计一个具有更好性能和更快故障恢复速度的新的日志系统，也就是今天的主题WBL（write-behind logging）。

WBL设计的核心原则在于，记录DBMS中的数据改变了什么，而不是记录其是如何改变的。我们会在后续的讨论中去完整的阐述这句话代表的意义。WBL在DBMS将数据的更改全部持久化后，才将log写入到NVM设备中，并且通过原子写入log的模式，保证了事务修改数据的持久性和原子性。WBL还减少了每条事务需要记录的log的大小，因此也大大减少了对NVM设备的写入次数，提升了NVM设备的使用寿命。

WBL在该篇论文的数据统计中，针对传统的WAL模式，提升了DBMS系统事务吞吐大约1.3倍，其故障恢复速度提升了2个数量级，并在同样的NVM设备上，节省了大约1.5倍的空间。

并且作者还设计了针对多副本模式下的WBL log协议。

在介绍WBL之前，我们先回顾一下数据DBMS已有的一些机制。

恢复机制和NVM带来的新特性

恢复机制

DBMS为保证数据的一致性，需要有两个约束，分别是更新持久性和故障原子性：

更新持久性：所有已提交事务的数据更改一定是持久化的
故障原子性：中止的事务（事务冲突，失败等）或者在DBMS发生故障时未成功提交的事务，他们对数据的修改要保证对后续的事务不可见。

这两个约束保证了数据库的数据完整性，在出现系统故障，比如掉电、系统crash等情况下，数据库依然能完整的恢复到出现故障前的状态。

DBMS中常见的故障分为以下三类：

事务中止：当前事务和另一个事务发生冲突时中止事务，或者应用程序自己执行了事务中止。
系统故障：当DBMS/OS中的错误，或者计算机硬件故障发生的系统故障。
存储设备故障：NVM/SSD/HDD等非易失性存储设备损坏造成数据丢失。

针对这三种故障情况，DBMS对那些未完成提交事务，必须保证数据恢复到之前的一个特定版本，且这些事务对数据的修改也必须撤销，并将这些事务的log也进行清除，以保证故障原子性。

现有的大多数DBMS都采用了steal和no-force策略来管理DRAM中的修改数据和存储设备上的持久化数据，steal策略允许DBMS随时刷新对未提交事务数据的修改，no-force策略则允许事务在提交时不将DRAM中的修改数据刷写到持久化存储设备中，但需要保证在向应用程序返回事务提交完成时，将对应事务的更改持久化在log中。

在DBMS因故障而发生重启Recovery时，需要通过log来保障其数据的原子性和一致性，Recovery算法通过在log中的记录来恢复故障时刻的数据库状态，针对已提交完成的事务，需要确保其在log中记录的数据更改操作全部生效，执行redo操作来完成数据修改的回放，针对未完成提交的事务，需要将这些事务带来的数据更改进行撤销，执行undo操作来完成数据更改的撤销。针对存储设备故障，DBMS通过在多个存储设备上存储数据，日志和数据库的归档（即checkpoint）来实现数据完整性。

NVM带来的新特性

传统的HDD盘具有高数据密度，价格低廉，持久化稳定的优点，但也无法摆脱机械盘寻道带来的开销，而且顺序访问和随机访问的性能差异巨大。

SSD相比HDD来说具备更加好的读写性能，其读写时延相比HDD来说低3个数量级。但针对DBMS系统来说，SSD也存在三个问题：

仅支持面向block的访问模式
SSD的NAND只有固定的擦写次数，存在寿命问题
SSD的成本过于高昂，每GB的价格是HDD的3-10倍

SSD/HDD的读写速度限制了使用它们来存储log的DBMS系统的性能，主要是因为DRAM和SSD/HDD存在巨大的随机与顺序访问延迟差异，以及两者的数据访问粒度也存在差异（即粗粒度的面向块的访问模式，细粒度的面向字节的访问模式）。

新生的NVM技术，如PCM，STT-MRAM以及RRAM，提供更快的读写访问速度，且提供细粒度的面向字节的访问模式。与使用SATA接口的SSD/HDD相比，NVM设备可以插入DIMM插槽，通过PCIE接口进行访问，为CPU提供了更高的带宽和更低的访问时延。且如下图所示，NVM设备的顺序访问和随机访问的差异相对SSD/HDD来说非常小。

但NVM设备也存在价格高昂，使用寿命有限的问题，如果DBMS将其直接作为数据存储来使用，将会大大增加系统的成本，因此需要去优化NVM的写入数据量，来增加NVM设备的使用寿命。另外一种比较经济的使用方案是将DBMS的log数据存储在NVM设备上，将数据存储于价格相对便宜的SSD/HDD上，但这种方案只利用到了NVM设备的低延迟顺序写的特性，并没利用起来NVM设备的随机写入和细粒度的面向字节访问的能力。鉴于此，针对DBMS系统，作者设计了一种专门为NVM设备上使用的log记录和恢复算法，并将其称之为WBL，并将其应用在CMU的自研数据库Peloton中。

如图所示，分别是基于WBL和WAL的DBMS的性能统计，由图可得，WBL在吞吐，故障恢复延迟，以及log存储空间占用方面，都远远处于优势，尤其是在DBMS出现故障恢复时，WBL具有非常快的恢复速度，为什么会有如此大的差异呢，随后我们将慢慢道来，首先会分别阐述一下WAL和WBL的工作方式，分别从Runtime Operation **，Commit Protocol** 和**Recovery Protocol **，以及两者在其中的差异，来阐述一下WBL的优势所在。

WAL

基于WAL设计的最著名的恢复方法是IBM在20实际90年代开发的ARIES协议。ARIES协议中提出了redo和undo操作，在DBMS正常工作状态中，需要记录redo和undo log，并将其保存在持久化设备上，在出现故障恢复时再去读区log并执行相应的redo和undo操作来保证数据完整性。

作者基于多版本协议控制（MVCC）协议来调度事务的DBMS进行了对WAL的探讨，MVCC现在DBMS系统中使用最广泛的并发控制方案。在MVCC中，DBMS将meta数据的版本和元组数据都记录下来，并通过meta数据决定元组数据对事务是否可见。每个元组的meta数据由以下数据组成：

TxnId：事务标识符，全局唯一，递增
BeginCTS & EndCTS： 元组可见的时间戳范围，事务提交时间在其中的才对该元组数据可见
PreV：之前版本数据的指针（如果有之前版本的话）

在事务开始时，会通过一个计数器分配给事务一个全局唯一的TxnId，并事务分配一个事务提交时间戳，只有事务提交时间戳在元组的BeginCTS & EndCTS范围内，这个元组的数据才对该事务可见。如果该元组上曾经发生过update操作，即元组还有更早的版本，则还需要PreV指针指向更早版本的元组。

Runtime Operation

WAL在Runtime Operation阶段执行顺序为：

DBMS会先执行该事务中包含的操作
然后会将此次事务修改后的数据写入DRAM中
紧接着创建一条与更改相对应的log
最后将这条log写入至log文件的buffer中。

WAL log的数据结构如下图所示：

LSN：唯一的日志序列号

Log Record Type：当前log的操作类型（Insert，Update或者Delete）

Transaction Commit Timestamp：事务提交时间戳

Table Id：表ID

Insert Location：插入元组的位置，新写入数据的元组的位置

Delete Location：更新前元组的位置，即旧版本的位置。

After Image：修改后的镜像（即更新后的值）。

同时DBMS中还维护了两个用于恢复的元数据表：

DPT(Dirty page table)：脏页表，事务修改后尚未flush到持久话存储设备中的数据页，这些数据页都会有一条对应的最后一次修改它的log的LSN，DPT中的数据和log中的数据需要在Recovery中回放这些操作，恢复数据修改。
ATT(Active transaction table)：活动事务表，这里面会记录所有活动事务的最新日志记录到的LSN，用于追踪正在运行事务的状态。

DBMS还会周期的对数据进行Checkpoint操作，用于提升Recovery过程的效率，DBMS会将DPT中的数据和ATT中的数据作为检查点的一部分，然后会将已经事务提交完成的数据页进行flush，并且删除其在WAL log中的记录。

Commit Protocol

事务在commit阶段的过程：

首先会整理log文件的buffer
然后将其从buffer中的数据sync到持久化存储设备中
将事务标记为已提交状态
通知worker线程进行group commit
通知应用程序commit完成

在WAL log模式下，当一个事务开始时，DBMS会在ATT中创建一个entry，并且将其标记为active状态，后续针对这个事务对数据库的每个修改，DBMS都会创建对应的log记录，并且将其追加到log buffer中。然后更新所有在ATT中相关联事务的LSN。

在事务提交之前，DBMS会将事务相关联的所有log通过fsync命令flush到持久话存储当中，即所谓的同步日志记录(synchronous logging)。最后，DBMS从ATT中将该事务的状态标记为已提交。

使用WAL时，从DBMS到持久化存储的的写入顺序如下图所示：

事务对数据的修改首先应用于DRAM中的Table Heap和索引
在事务提交时，WAL要求DBMS必须将事务所有的修改flush到持久化存储设备中
最后会周期的进行CheckPoint操作，在此过程中会将log中的修改完全应用到数据库中，并清除对应的log

通常每个事务都会产生很对条log，并且每条log的大小都很小，针对这种情况，DBMS为了提高事务的吞吐和减少单次访问持久化设备的平均开销，采用了group-commit的模式来合并多条log记录一起flush到持久化存储设备中。

Recovery Protocol

如上图所示，传统的WAL的恢复算法分为3个阶段：

Analysis

在Analysis阶段，DBMS从最近的Checkpoint开始处理log，并从log中筛选出在DBMS出现down时，正在活动的事务，以及这些事务对数据库的修改。
Redo

在Redo阶段，DBMS首先加载一个新的ATT，并从Checkpoint之后的最早的那条log开始处理，将log中记录已提交事务对数据库的修改操作进行回放并保证其持久化存储。
Undo

在Undo阶段，DBMS将log回放过程中未提交的事务的log内容跳过，不作处理，并且如果是Delete或者Update操作，还需要将tuple的数据回滚至以前的版本。

在MVCC协议中，简化了回放log算法，在redo阶段，DBMS会直接跳过那些重复的和未提交的log条目，即将Redo和Undo两部分合并在了一起。

虽然WAL对事务的高效处理支持的还算不错，但因为DRAM的易失性和持久化存储设备不支持快速随机写入，并不能完全将NVM设备的特性发挥出来。以及每个事务会有多条非常小的log，频繁的对NVM设备的写入对NVM的寿命损耗也比较大。