【创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流】创投圈_傻大方

按关键词阅读： 创投圈

创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流

我们都知道， Facebook全身心all in 元宇宙，连“Face”都不要了，自家名字都改成了Meta 。可能也正是为了自己的元宇宙愿景， Meta发布了自监督语音处理模型XLS-R ，不要小看这个人工智能模型，它可是支持高达128种语言。
这个新的语音模型，简直可以说跨越全球人的不同语言障碍了，可以让大家各说各的，还能互相理解，彼此交流起来如同以同一种语言来沟通一样。可能说起来，类似于一个直译，把我说的语音以你的母语的方式转化出来。机智客这里表达的意思是， XLS-R要实现的场景是，我说我的汉语，你说你的英语，可是我们彼此之间都能丝滑秒懂，如同我们都在说汉语或者英语。这个语音模型，神奇吧。

虽然，多语言模型并不罕见，彼此翻译也实不鲜见。不过，据了解， XLS-R则是基于以前自己也就是以前的Facebook发布的wav2vec 2.0技术，通过自监督技术对10倍的语音数据进行训练，而大大改善了以前的多语言模型，尤其是针对小语种的处理。
【创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流】可能有朋友知道谷歌发布的BERT模型，而wav2vec2.0则和BERT类似，不过它们的区别是，语音音频是一种连续的信号，不能轻易清晰地分割成单词或其他单位。机智客看资料显示， wav2vec 2.0通过学习25毫秒长的基本单元来解决这个问题，以便能够学习高级上下文表示。通过少量有标记训练数据的情况下， Meta的技术通过后续无监督的训练数据，在LibreSpeech测试基准的100小时子集上达到SOTA水平。之后，又通过高性能语音识别模型wav2vec-U来从录制的语音音频和未配对的文本中学习。其中还用到了GAN技术来学习识别音频录音中的单词。
也就是有了这一系列的技术实现基础， Meta这才推出了包含53种语言的XLSR 。而最新的发布的XLS-R则远超XLSR ，包含高达128种语言。它，包含20亿参数。其表现优于先前的工作，哪怕是小语种识别上。
遥想到，上帝为了阻止人类造通天塔而变乱人类的语言，使之各不相同，无法彼此直接沟通。现在Meta要“冒天上之大不韪”——把上帝扰乱的东西再捋顺统一过来，公然“逆天而行” ，其心壮哉——厉害了我滴哥。算了不皮了，其实吧，当机智客试玩了那个在线Demo ，随便录了一句汉语语音， Submit后看到Output的结果，差点笑出声来。

稿源：(未知)

【傻大方】网址：/c/1124a3cH021.html

标题：创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流

傻大方

创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流

晶圆厂|三星在美国的第二家芯片厂敲定：投资170亿美元，2024年投产

重男轻女|日本动漫为什么“重男轻女”原来全是被逼的

创投圈|跨所有语言？Meta发布新语音模型，简直能让全球人无障碍交流

一加科技|铭匠光学正式官宣全画幅M口28mmF5.6镜头

皮肤癌|冬天多久洗一次澡更健康？为了生命安全，老年人洗澡要做好这4点

简史|中国互联网大佬直播简史

显卡|卡吧网友分享关于非常时期显卡购买的建议，感兴趣的兄弟可以看看

小米科技|8G+256G+极致轻薄，小米优质旗舰跌至1899元

腾讯|QQ、微信等全部暂停更新！腾讯回应来了：配合监管进行合规检测

折叠屏|realme GT 2 Fold折叠屏新机曝光，或凭一己之力成为折叠屏价格