专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布( 二 )


专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

----专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布//----

  (PhotobySergey)

  以前我们做视频会议 , 考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话(典型的比如电话话筒终端) , 这个是典型的双人通话场景 , 但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景 。 以前基于电信行业终端(电话话筒为主要语音设备)定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求 。 简单地说 , 会议软件是从模仿打电话的体验开始的 , 虽然从使用方式、使用场景、使用时间等等角度来看 , 多样性已经远远超过了电话 。 而且 , 仅仅俩人打电话是不够的 , 我们要一个小组打电话 , 光打电话还不够 , 还要分享视频、分享屏幕、图片和文档 。 从国际标准 , 比如ITU-T的演进路线图来看 , 制订的通话标准 , 也不断的从双人通话向多人、跨地区的实时、强交互场景演进 。

  会议当中关键的语音体验简单的来说 , 可以从三个维度来衡量 , 语音通信的可懂度 , 语音自然度/保真度和语音舒适度 。 从这三方面来说 , 在多人会议中面临的挑战明显要多于双人 。

  比如多人通话采集设备的多样性 。 两个人的时候当然很好协调 , 人多了以后采集设备如何配置 , 以及采集的音质、采样率、比特率;在多人场景里面音频编解码的接入配置 , 到底是宽带还是超宽带 , 最简单的办法就是所有的配置都按照最好的来 , 但是这样对系统资源的占用是最高的 。 同时因为对系统资源的占用最高 , 会带来总体体验的下降 。

  那么如何动态来在多种因素中平衡 , 保证多人语音通信的综合体验在三个维度上有最优的均衡 , 就变成一个很有挑战性的课题 。

  同时 , 不同场景的网络环境也不一样 。 你的网络、我的网络 , 可能还有第三个、第四个人的网络 , 有的人使用有线网络、有的则是WiFi , 有的是4G , 带宽差异巨大 , 网络QoS也参差不齐 , 这时候如何有效的探测网络实际带宽 , 进而高效的进行流控管理 , 在多人场景下的复杂度远远高于双人 。

  所以 , 综上所述 , 一旦开始考虑多人参会的因素 , 你会发现 , 在两人通话的情形下讨论的音质体验、QoS、QoE等等问题 , 现在要重新思考答案 。 这在国际上当前也是很热的领域 , 大家也都在探索答案 。

  对于整个视频会议体验来说 , 或者对于用户体验来说 , 这不是一个单一的因素或者指标就可以决定的 。 之前我们有针对网络规划的常见QoS三个指标 , 丢包 , 抖动和延迟 , 这些东西都是必要条件 , 但是不是充分条件 。 决定一个用户体验的是很多方面的因素 , 比如从音频角度来说 , 从我们做音频的角度来说 , 用的最多的就是上面说到的三个维度:语音可懂度、自然度、舒适度 。

  首先是听得懂你说的话 , 这是可懂度 。 如果音量很低 , 卡顿很严重 , 或者回声 , 或者很嘈杂 , 或者啸叫发生 , 那我基本就无法听了 , 那视频会议通话中反应比较多的卡顿来说 , 我们通过深度学习技术来解决网络丢包的问题 。