阿里云SIGCOMM22论文阅读

Garry Xu 8月 31, 2022

阿里云在今年的网络顶会SIGCOMM上发表了一篇论文：”From Luna to Solar: The Evolutions of the Compute-to-Storage Networks in Alibaba Cloud”。

该文章介绍了阿里云在EBS存储的应用背景下，计算节点和存储节点间网络通信的演进过程。由于文中介绍的网络架构已经在阿里云内部大范围应用，对于同样提供EBS服务的云厂商来说，有很好的指引性。

背景介绍：EBS网络

弹性块存储（EBS）是云厂商提供的标准服务，以云主机或者裸金属可见的虚拟磁盘的形式被用户使用。有按需分配磁盘数量、按需分配磁盘容量的特点。

阿里云EBS的总体架构如下图所示：

虚拟机磁盘的I/O数据传输到计算节点服务器上的存储客户端（SA），SA通过RPC与存储集群的Block Server交互，最终数据经由Block Server写入Chunk Server的磁盘。因此可对EBS网络做如下切分：

前端网络（FN）：连接计算节点和Block Server的网络，也是这篇论文关注的部分。
后端网络（BN）：连接存储节点间的网络。

具体到SA的处理流程，一次写请求的处理流程如下：

SA接收到虚拟磁盘的写请求。
查询QoS Table，获取虚拟磁盘的服务等级和当前用量信息，酌情进行限速。
生成CRC校验。
进行数据加密（可选）; 同时查询Segment Table，获取的目标Data Segment及对应的Block Server。
将元数据和数据写入Buffer。
发送一个或多个RPC将数据和元数据发送给Block Server。
Block Server 收到写请求。
Block Server将请求发送给对应的后端Chunk Server。
完成三副本写入后，Block Server发送回应。

下图是图形化的展示：

可以看到在整个I/O处理中，SA扮演了很重要的角色。I/O过程中，SA的查表、校验、加解密及数据传输，都将消耗计算节点的资源。

EBS前端网络的特点

阿里云分析了其线上10W台服务器，有如下总结：

EBS以写I/O为主，其流量占服务器流量的大部分：EBS流量占到发送流量的63%，占总流量的51%。结合下图能看出来EBS流量超过70%都是发送流量（写I/O）。同时文章也提到了，单台线上物理服务器的平均IOPS在20W左右。
I/O不大： I/O请求均小于128K，40%的I/O小于4K。由于小I/O对延时更加敏感，因此阿里判断其EBS流量主要为延时敏感型。下图是I/O大小分布情况：
I/O延时LUNA和SOLAR优化明显： I/O延时对比如下图所示，可以看到使用内核TCP的FN和BN均有较高的延时，远大于SSD设备本身的写入和读取延时。而LUNA使用用户态TCP实现后，对读写I/O场景FN和BN的延时都有大幅度的降低。而LUNA应用后，可以发现SA在读写延时中成为瓶颈，SOLAR则一定程度上解决了这个问题。SOLAR在4KB写I延时上优化效果十分明显。

这里补充下SSD硬件设备的延时作为参照，如Intel P4510 4TB SSD磁盘，其4KB随即读取延时为95us，随机写入延时为25us。

LUNA

由于内核协议栈在延时层面有较大开销（几百微妙到毫秒级），因此，实现低延时有两种主流方案，一种是基于软件bypass 内核的方案，如Intel DPDK等；另一种使用基于硬件的bypass内核方案，比如RDMA。LUNA 是阿里为了低延时，为FN实现的软件用户态网络方案，和腾讯云的zTcp类似。

阿里在BN端使用了RDMA，在FN侧为什么要使用软件方案，其基于如下考虑：

扩展性：由于FN负责连接计算节点到存储集群，考虑到计算节点的数量，FN需要将扩展性作为重要的设计因素。另外在保持大量连接的同时，FN还需要保障其高性能和高可靠性。相比之下，BN需要连接的节点数量要少得多。
互操作性：由于不同存储集群的部署时间不同，其所用网卡硬件可能存在差异。FN需要保持对不同硬件配置的兼容性。而单个存储集群内，则硬件配置可以保持一致。

文中也提到，在LUNA开始开发的2017年，RoCEv2并不成熟，有连接数目到达一定规模总体网络带宽急促下降，及不同厂商、不同型号网卡间不兼容的问题。因此基于前述两点及RDMA应用的问题，阿里选择使用软件方案，也就是LUNA。

从2019年发布之后，LUNA几乎已经部署到所有的阿里云EBS集群，2021年Q1全量部署之后，相对于2019年Q1，EBS的整体延时下降了64%，IOPS增大180%。延时及IOPS的进化如下图所示：

下表则展示了，LUNA和内核TCP在性能和开销上的对比。在2x25G下，LUNA相对于内核协议栈，延时降低了80%，仅需要1个CPU 核即可打满50G带宽。

LUNA有前面所说的突出优势，在大面积应用LUNA之后，一些问题凸显出来：

SA成为性能瓶颈：在应用LUNA之后，端到端延时的瓶颈变为SA。SA有复杂的计算逻辑，比如CRC、加密、查表等。能不能将这部分交由硬件处理？
随着网路能力的进一步提升，软件方案难以持续：尽管LUNA不在是瓶颈，但是在实际应用中，其占用了很多的CPU资源。对于2x100G网络，其需要4个CPU核心，对于后续的2x200G，2x400G来说，将必须吧这部分网络处理放到硬件上。
网络故障对存储的影响是灾难性的：当发生网络故障，LUNA只能等待网络恢复，而网络恢复时间需要较长的时间，可以达到分钟级，在这个过程中，EBS I/O将夯住。下图展示了在网络故障下，大量的虚拟机I/O无法完成。
应用DPU后遇到的内部PCIe带宽问题：在使用DPU（神龙）后，LUNA运行于DPU卡上的CPU，，数据需要在卡上的FPGA和卡上的CPU间通过内部PCIe连传输。这个内部PCIe连接，也成为了网络带宽和延时的瓶颈。

SOLAR

2018年开始，阿里开始研发SOLAR系统。SOLAR有两个设计目标：一个是降低DPU上的CPU开销并解决CPU和FPGA间的PCIe带宽瓶颈问题；另一个是通过主动的路径切换来发现并规避网络故障。

SOLAR和LUNA及RDMA架构的对比，如下图所示：

SOLAR的实现有三个挑战：

网络栈和SA都是复杂的、有状态的软件系统，要想在FPGA的有限资源上实现是比较难的。
实现的可扩展性。
FPGA 硬件是易出错的。阿里的实际观测，37%的线上数据损坏，由FPGA硬件导致。分布如下图所示：

SOLAR的实现思路是将存储实现和网络栈融合起来，消除FN中的数据包缓存、以及数据包到存储系统数据块的转换。具体来说，就是“一个数据块一个数据包”。这样的设计有如下的好处：

不再需要数据包缓存，用于将数据包拼成数据块。
不再需要CPU处理。DPU内网络处理和存储处理直接衔接。
更少的状态维护。不需要维护数据包到存储数据块的映射。
对多路径的兼容。由于所有的数据包都相互独立，其对数据包重排不敏感，这也简化了多路径的实现。
易于实现。“一个数据块一个数据包”的设计和当前的系统实现吻合，实现对当前系统修改不大。

下面来看看SOLAR 具体的读写流程。

SOLAR的读写流程

写流程

如下图所示：

Guest 通过NVMe命令向DPU发起写请求。
QoS 模块对写请求进行带宽控制，Block模块将VD的逻辑地址翻译为远端Block Server 物理磁盘的具体Segment地址。（这里涉及到对QoS和Block映射两个表的查询）
DPU上的CPU 通过Polling发现了该写请求，并对每个I/O准备RPC和UDP Header。
FPGA同时通过DMA获取该次请求的数据，通过CRC模块计算CRC，如果需要通过SEC模块进行加密。
最终，由PktGen模块发送数据包。

读流程

为记录数据块，读流程涉及到如下图所示：

Guest 通过NVMe命令向DPU发起读请求。
与写请求类似，QoS模块和Block模块进行处理。
RPC模块在ADDR表中增加一项，ADDR表记录了RPC ID、I/O请求ID 和对应的Guest内存地址。
DPU上的CPU发送RPC请求。
DPU上的FPGA收到请求的返回信息，并根据ADDR表的记录进行处理，处理后，清除该表项。
DPU上的FPGA完成CRC和DMA处理，并将头部和包元数据信息发送至DPU上的CPU进行数据完整性校验。
最终，DPU上的CPU通知Guest I/O处理完成。

通过上面的两个流程，可以看到SOLAR将数据面卸载到了FPGA上，但是每次I/O仍需要DPU上CPU的介入处理。

SOLAR的应用

2020年起，SOLAR在阿里部署了超过10W台服务器，有如下的优势：

SOLAR 提升了I/O性能：由于部署了SOLAR，EBS整体延时降低25%，对于4KB写请求，延时降低69%。同时SOLAR相对于LUNA也提高了资源利用效率，单核心的带宽和IOPS分别提高了78%和46%。并且论文也提到，虽然SOLAR降低了SA的平均延时，但是依然有较高的长尾延迟存在。该延时是因为目前SOLAR依赖DPU上CPU来进行拥塞控制，在I/O压力较大的情况下，CPU的负载比较高。
SOLAR避免了因为网络故障导致的I/O夯死：在线上环境，Guest 虚拟机每年因为网路故障，几十起I/O夯死，在SOLAR部署的两年间，这个数字降为0。
硬件资源消耗较少，如下图所示：

SOLAR的一些经验

网络速度正变得越来越快，越发接近PCIe速度。再这样的背景下，SOLAR这种bypass PCIe通道的实现就能避免其性能瓶颈，阿里认为bypass PCIe是高性能网路协议的长期需求。在这种实现下，SOLAR单CPU 核心可达成150K IOPS的性能。
使用jumbo frame的优缺点：使用大包传输，有因网络拥塞增大延时的风险。这里阿里做了一些优化，比如交换机为SOLAR使用单独的队列，并使用更细粒度的拥塞控制算法，选取适中的包大小（4K而不是8K）等。
将EBS与DPU结合：存算分离的架构在一些资源受限的场景（比如：边缘计算或者私有云）会带来较高的网络通信开销，这时候可以考虑将Block Server整合到DPU中。