快速概览 + 详细了解N:N聚类算法是如何应用的

编辑导语:如今的识别功能越来越强大 , 比如:指纹识别、人脸识别、虹膜识别、声纹识别等等 , 声纹识别多用于金融行业和刑侦场景 , 进行声音匹配;本文作者详细介绍和分析了声纹识别中N:N聚类算法是如何应用的 , 我们一起来看一下 。
快速概览 + 详细了解N:N聚类算法是如何应用的文章插图
笔者前段时间有幸了解到声纹的概念:声纹识别 , 作为生物识别技术的一种 , 跟脸象、指纹、虹膜等一样 , 是每个人独一无二的特征;在金融行业、刑侦场景应用中 , 对于说话人身份的鉴别认证 , 应用颇多 。
作为产品功能设计 , 一般有三个类别 , 分别是1:1(说话人确认)、1:N(说话人辨认)、N:N(在声纹1:N的基础上 , 进行大规模、自动化和高效的声纹匹配 , 类似声海中找特定声音 , 或者找相似声音) 。
本文从声纹识别的基本概念入手 , 科普知识;同时分享笔者思考的声纹识别的N:N聚类算法的流程与应用场景 , 希望可以和大家多多交流 。
本文将从如下方面为你一一解读:

  • 什么是声纹?
  • 声纹识别的原理 。
  • 声纹识别的三个应用大类:1:1、1:N、N:N 。
  • N:N聚类分析的技术原理与应用流程、应用场景 。
  • 声纹识别的几类攻击 。
一、什么是声纹?声纹(Voiceprint) , 是用电声学仪器显示的携带言语信息的声波频谱 , 是由波长、频率以及强度等百余种特征维度组成的生物特征 , 具有稳定性、可测量性、唯一性等特点 。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程 , 发声器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大 , 所以任何两个人的声纹图谱都有差异 。
每个人的语音声学特征既有相对稳定性 , 又有变异性 , 不是一成不变的;这种变异可来自生理、病理、心理、模拟、伪装 , 也与环境干扰有关;尽管如此 , 由于每个人的发音器官都不尽相同 , 因此在一般情况下 , 人们仍能区别不同的人的声音或判断是否是同一人的声音 。
二、声纹识别的原理想要通过声音识别某个人 , 或者从声海中辨认出谁是谁 , 有两个核心的问题:就是特征提取和模式匹配了 。
数据收集阶段 , 提取并提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征;之后选择合适的模型(具体大家可以自行搜索 , 这里不多赘述)在进行声音识别 。
三、声纹识别的三个应用大类:1:1、1:N、N:N1. 说话人确认 1:11:1 说话人确认是确认说话人身份的方法 , 针对“对于同样的文本内容 , 有两段录音 , 这两段录音到底是不是出自一人之口”这样的问题 , 也就是“两句话到底是不是一个人说“的问题 。
该类场景相对简单 , 主要应用于用户的注册和验证 , 以及APP内的声纹核身 。
2. 说话人确认 1:N1:N 说话人辨认是辨认说话人身份的方法 , 针对“对于一段语音 , 需要迅速在样本库中进行搜寻比对 , 以确认这段语音与样本库中哪段语音相似度最高” , 也就是说“给定的一段语音属于样本库中谁说的”的问题 。
该类场景比较常见 , 主要应用于黑名单用户进线检测、提高安防能力等 。
3. 说话人聚类 N:N在声纹 1:N 的基础上 , 进行大规模、自动化和高效的声纹匹配 。
举个例子 , 如果吉尼斯举行一个比赛 , 5万个人都录制一段文字内容相同的语音;作为吉尼斯的审核方 , 如果想要快速鉴别这5万个数据有没有造假、或者重复(比如将一段语音复制无数次 , 冒充数据);那么雇佣业务员一条一条语音听 , 是有点不科学的 , 语音听多了也会混乱 , 而且很低效 。
那么有什么好的办法呢?那就是N:N说话人聚类 , 下文会详细介绍如何解决此类问题 。
四、N:N聚类分析的技术原理与应用流程 , 应用场景对于千亿级别的无标签录音文件 , 如何做有效的处理?