rdma

DMA和RDMA概念

DMA(直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与

传统内存访问需要通过CPU进行数据copy来移动数据,通过CPU将内存中的Buffer1移动到Buffer2中.DMA模式:可以同DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,而不需要操作系统CPU的参与,大大降低了CPU Copy的开销

RMDA

RDMA是一种概念,在两个或者多个计算机进行通讯的时候使用DMA, 从一个主机的内存直接访问另一个主机的内存

数据发生多次拷贝,中间的处理过程都需要CPU参与,如果不绕过操作系统内核对于CPU来说就是持续的开销

RDMA是一种host-offload, host-bypass技术,允许应用程序(包括存储)在它们的内存空间之间直接做数据传输.具有RDMA引擎的以太网卡(RNIC)--而不是host--负责管理源和目标之间的可靠连接.使用RNIC的应用程序之间使用专注的QP和CQ进行通讯

RDMA 直接绕过内核,让数据在应用层传递到网络接口.可以将数据从应用层直接

INFINIBAND TRADE ASSOCIATION (IBTA) 制定IB标准, openfabrics 开发IB 软件

硬件和软件配合为应用提供加速服务

Host Channel Adapter(HCA) 主机通道适配器,这里的通道指的是网络中的两个主机节点借助HCA IB网卡来建立主机通道,提供传输服务

SDN网络,不需要广播,网络扩展性非常好

子网管理器SDN控制器提供管理服务 48000 ioid

低延迟高带宽传输卸载,这里的卸载指的是从一个主机发送数据到另外一个主机,在传输的控制部分不需要CPU去执行控制协议栈,所有的控制传输服务都是由HCA配合交换网络完成的

infiniband 最大特点是它是一个SDN(software define networking 软件定义网络)

子网管理器构成了软件定义网络的控制面,控制面发送子网的所有配置到各个交换机到各个端口.

在设备上电之后,子网管理器会给所有的给所有的端口分配二层地址,之后的通信都是由二层地址在子网端口之间进行通信. 因为子网管理器在SDN中具有全局的视角,所以它可以轻易的进行一个子网的路由计算,计算两点之间的路由,并且把对应的路由表下发到对应的交换机

所有的路由寻址都是由SDN来控制的,这样使得网络的路由拓扑收敛性特别好,任何一个交换机,任何一个路由或者交换机离线或者上线,就会进行一次路由表的更新,可扩展性和易维护性很好

Infiniband使用的是基于信用的二层流控(credit based link layer flow control)

当一跳的交换机端口要往下一跳的端口发送数据之前,它会首先查询下一条是否存在buffer来接收数据,如果有才会传输

他会先在控制链路上和下一跳进行沟通,否则如果没有buffer也发就会造成丢包,造成性能的损失

相比于尽力而为,量力而行,只要物理层是可靠的,二层之上可以实现无损网络

在无损网络之上,我们就可以利用infiniband获得很好的传输服务

如果一个应用想要从另外一个节点的伙伴应用获取数据,IB可以通过HCA管理QP在两个节点之间建立虚拟通道,可以使发起应用的数据获取到想要得到的数据,否则就需要调用OS的传输协议栈,经过多次的传输拷贝才能从网络发送过来,infiniband提供了更好的传输服务

传输层需要提供的一个服务是把一段发送的message进行切分,假如发送2G的数据,传输层会由HCA将数据切分成package(mtu 最大传输单元 4k),发送到对面再由对面的HCA组装package成message写入到应用中去,整个的过程都是由网卡来卸载的,不需要CPU去做消息切分,发送,整合,复制

QP(queue pair)可以建立不同模式的队列对,面向连接的,不面向连接的

面向连接指的是一个QP会和另外一个节点的QP组成关联,读写是一对一的

datagram不面向连接都需要指定具体是发送给哪一个QP,建立一对多

可靠的,不可靠的

可靠的发送ACK,保证传输层的可靠/否则NACK发起重传,都不需要CPU干预,实现高质量的传输和直接的内存访问

不可靠,只管发,appication来决定,重传也是application决定重传

这种传输服务使能了RDMA直接访问内存的机制,access而不只是收发

用户数据复制到kernel协议栈,kernel协议栈找到一块可用的网卡,网卡把数据传输到对方,又要用CPU,复制到协议栈,耗时耗费CPU资源