2020双十一,阿里云GRTN拉开直播和RTC技术下半场序幕( 三 )

GRTN核心技术 – 对等组网和路径动态规划传统的直播架构是一种层级的树状结构 , 由于媒体流的链路相对比较固定 , 这种结构的在产品初期可以把研发资源更多的投入在媒体协议的处理上 , 对于快速构建产品能力是相对风险可控的 。 但随着业务的发展 , 这种架构的缺陷也会越发明显 , 比如延时高、成本高 , 而且扩展性也比较差等 , 在一定程度上是阻碍业务发展的 , 比如延时很难突破到6s以下 , 视频的互动只能借助旁路连麦系统等 。
为了根本上解决这一系列问题 , 并结合层级结构有助于系统运维和容量评估 , 而网状结构有益于构建高质量和低成本的网络的特性 , GRTN采用了混合组网方式 , 即层级结构和对等图形方式相结合的组网的方式 。 选路中心会周期性收集内部链路探测的结果 , 为了配合动态组网 , 流媒体大脑模块需要对流信息进行管理 , 同时还需要支持路径切换、容量规划以及在成本和质量之间做综合的调度 。
GRTN核心技术 – 多路径传输为了能够提高GRTN内部链路传输的可靠性 , 以及考虑在成本和质量间的均衡 , GRTN支持如下3种内部链路多路径传输模式:竞速模式、备选模式和智能模式 , 可以在高可靠 , 质量 , 成本等诸多因素控制下进行适配和自适应的切换 。
GRTN核心技术 – 能力下沉流媒体技术向来以协议多著称 , 主要是因为业务的多样性导致 , 下面是流媒体行业的技术进化趋势对比表:
2020双十一,阿里云GRTN拉开直播和RTC技术下半场序幕文章插图
上表中只整理了相对比较通用的协议 , 可以看到流媒体协议纷繁复杂 , 在传统的架构里这些协议的处理在中心完成 , 边缘主要做透传分发 , 这样的问题就是协议处理的链路太长 , 不仅成本高而且延时大 , 那么很自然的一个想法就是将协议和媒体处理能力下沉到CDN的边缘 , 中心只是做管控 , 从而做到类似Service Mesh的设计思想 , 将控制与数据分离 , 因为这些协议的本质都是在传输音视频的基本流ES(Elementary Stream , 比如常见的H.264/H.265/AAC/OPUS/VP8/VP8/AV1等) , 不同的协议解决的是不同的封装格式的传输问题 , 比如有TS(Transport Stream)、PS(Program Stream)、MP4、fMP4(fragment MP4)、FLV等 , 而不同的封装格式本质上就是针对不同场景下如何封装ES流的问题 , 因此在边缘设计一种通用的针对不同ES流的传输协议和缓存系统是完全可行的 。 GRTN将协议处理能力下沉到了边缘节点 , 目前可以支持RTMP、HTTP-FLV、WebRTC、GB28181等流式协议 。
GRTN核心技术 – 双向实时信令网前面提到GRTN核心价值之一是高质量 , 高质量除了延时低以外 , 还需要考虑快速容灾切换能力 , 以及提升首屏秒开率等核心指标 。 在RTC场景下有一个比较常用的功能是客户端网络的Mobility , 比如用户在开会的过程中回家或是离开家的时候手机网络需要在4G和wifi之间切换 , 另外考虑客户端接入的CDN节点出现异常的时候 , 这两种情况都会造成客户端在和GRTN通信过程中切换接入节点 , GRTN构建的双向的实时信令网能够做到切网消息的毫秒级传递 , 当有一个发布端的媒体流发生网络切换后 , 订阅的客户端对GRTN内部发生的切换行为是完全无感知的 。
GRTN核心技术 – 持续迭代的QoSGRTN之所以能够做到在直播延时由6s降低到1s以内 , RTC通信延时做到250ms左右 , 除了图形网的结构的改造以及协议下沉等技术外 , 最核心的还是有采用了有媒体特性感知的QoS , 这和TCP或QUIC这类通用QoS策略在本质上是不一样 。
WebRTC的QoS是一个针对流媒体特性的多维决策体系 , 涉及到的算法和策略参数非常多 , 为了方便业务层对底层QoS算法和参数的择优 , GRTN设计了一套可插拔的的QoS集成框架 , 结合GRTN数据化的质量评估体系 , 可以做到一次集成持续迭代 , 不同的算法和参数都可以利用GRTN的A/B质量评估体系进行线上评估 , 形成赛马机制 。
同时QoS和文章前面提到的动态路径规划也是有很多结合点的 , QoS研究中的一个很重要课题就是需要区分出网络的抖动和拥塞 , 如果是拥塞那就需要反馈给上游进行信源带宽调配(比如降码率 , 流切换等) , 但如果只是短暂的抖动 , 就可以启用相对激进的抗丢包策略 , 动态路径规划也面临类似的问题 , 如果是只是短暂的拥塞 , 可以保持当前链路并借助QoS的抗丢包策略来扛 , 但如果是链路拥塞了 , 则需要尽快切换链路 。
GRTN核心技术 – 流媒体孪生GRTN升级到网状结构后也会面临一些新的挑战 。 众所周知 , 在618和双11等大促活动期间确保CDN资源的充足供应是至关重要的 , 在传统的层级结构下可以通过业务命中率来分别对L1/L2/中心分别进行评估 , 而在网状结构下内部链路是动态规划出来的 , 也就意味着流量的分布也是动态的 , 这对于如何评估 CDN的整体容量提出了新的挑战;再比如动态选路算法如何在质量和成本之间找到均衡点 , 以确保GRTN系统的低成本高质量? 为了解决此类问题 , GRTN借鉴数字孪生(Digital Twin )的思想设计了一个流媒体孪生(Streamimg Media Digital Twin)系统 , 用于容量评估、算法训练、事件复盘和模拟压测等 。