微软|阿里刚发布的新玩意,解决无数打工人的头等难题( 三 )


虽说电影存在夸张成分 , 但现实中也存在类似的声音定位技术 。

那就是钉钉自研的“麦克风阵列技术” , 表面看名字普普通通 , 内里却大有讲究 。
一句话解释其原理:将一定数目的声学传感器(收音麦)按照一定规则排列 。
好比是在你前后左右上下摆满麦克风 , 360度环绕收音 。

好处是相比单个麦克风拥有更强的噪声源识别、语音提取能力 , 轻松采集不同空间不同方向的声音进行时空处理 。

用人话表达:抑制噪声、去除混响、减少干扰 , 收音时更灵敏精准 。
故被江湖人称为“智能设备的顺风耳” 。
钉钉在此基础上更进一步 , 将麦克风声学特性和差分波束理论的优势结合 , 把远场拾音的识别准确率提升到行业TOP1 。
比第二名高出7%~9% , 让设备听得更远更清晰 , 大大提升声源定位的速度与精度 。
一口气搞定一体机同时放声收音相互干扰的行业难题 , 另一方面又增加拾音距离和定位能力 。

当然 , F2收音精准 , 外放响亮离不开Fullband 3A算法的优化 , 它们分别为:AGC、ANC、AEC 。
考虑到都是些专业的学术名字 , 晦涩干燥 , 小雷用最直白的话为小伙伴科普一下:


AGC(主讲增益)AEC算法会根据说话者的距离 , 自动调整语音信号的增幅 , 控制音量 , 避免声音忽大忽小 , 同时延长拾音距离 。 ANC(主动降噪)用过AirPods Pro和索尼降噪豆的小伙伴很熟悉了 , 它的工作原理就是输出相反的噪音 , 来抵消外界的原噪音 。 保证会议环境的纯净 , 比降噪耳机还管用 。 AEC(回音消除)大多数一体机由于内部封闭缘故 , 外放时会造成声音的反射 , 也就是所谓的“回声” , 这也是为啥设备莫名出现嗡嗡嗡怪声的元凶 。 AEC算法可去除机器自身发出的声音 , 让外放更加清晰 。
凭借麦克风阵列技术+3A算法的黄金组合 , F2实现了10米无损拾音+指向收音的黑科技 。
是全球唯一一台不靠扩展收音麦做到远距离拾音的视频会议一体机 , 整个办公硬件市场独一档的存在 , 别无二号 。

智能导播 , 小雷认为是F2最鲜明的特点 , 人性化拉满的贴心功能 。
它就像隐形的摄影师+导播员 , 实时实地把会议最精彩的一面展现在屏幕上 , 硬生生把体验提升数个台阶 。
部分小伙伴心里充满了好奇 , 它是怎么实现的?其实背后涉及到音频、视频、AI三种不同的技术 。
首先运用视频多模态技术识别哪些人正在讲话 , 把他列为重点目标 。
再通过上面提到的“麦克风阵列技术与3A算法” , 迅速定位其所在位置 。
联动多摄像头系统调整焦距和取景范围 , 持续跟踪捕获高清画面 。

一句话总结:用AI人脸识别找到你 , 用麦克风找到位置 , 把镜头集中在你身上 , 弄个大大的特写 。

小雷实测 , 智能导播非常灵敏 。
坐在会议室里的同事 , 一说话就被F2探测到 , 硕大的人脸投影在屏幕上 。
刻意地让三个人快速讲话 , 考验F2的识别速度 , 没想到0.1秒左右的时间立马识别成功 , 媲美专业的导播设备 。

跟踪拍摄同样敏锐 , 当会议室有同事一边讲话一边走动时 。
F2的镜头瞬间捕抓到位 , 镜头跟随该位同事移动 , 无论距离远近都能对上焦 , 高清晰度播放特写 。
智能导播的“智能”二字 , 诠释淋漓尽致 , 单凭此点便足以暴杀其他同类了 , 两个字:无敌 。

关键问题:既然要做开放 , 为什么还要研发硬核的F2?虽手握竞争力爆表的产品 , 背靠世界级实验室 , 但钉钉没有走“一枝独秀”的路线 。
而是选择“开放合作”的道路 , 与产业链伙伴一起迈入新世界 。
因为钉钉明白 , 要满足千行万业的需求 , 光靠自己是不可能的事情 , 必须依靠繁荣的生态 , 用集体的力量去达成 。
为此钉钉制定了一系列策略 , 向行业、向企业开放自家的所有能力 。
自2017年发布智能考勤机M1到今天 , 钉钉联合伙伴陆续打造了超过100款办公硬件 , 面向教育、制造、医疗、政务等多个行业 , 光是硬件生态伙伴数量便超180家 。
咱们熟悉的英特尔、高通、TCL、罗技、Jabra等巨头均与钉钉展开全面合作 。

拿F2举例 , 钉钉对F2的定位是一个容器 , 而不是一个自研产品 。
内部所装载的高精尖音频、视频、主板各项模组都会开放给企业们 , 供它们集成使用 。
小伙伴可以这么理解:把F2拆成一块一块的 , 然后装到别人家的机器里 。