音乐人工智能的发展与思考( 二 )


音乐人工智能的发展与思考文章插图
图5: 知识蒸馏示例
二、音乐智能的思考
这里谈几点人工智能在音乐领域的潜在应用和思考 。
【音乐人工智能的发展与思考】1、模仿与示教
因为深度学习的兴起 , 近年来通过模仿专家学习策略的强化学习也从早期比较复杂的理论性研究 , 转到了相对实用且模型性能优异的深度强化学习模型上 。 同时 , 为了能更好地学习专家决策 , 而不用去理解专家内在的脑电活动 , 示教、行为克隆等理论和算法也得到了发展 。
这对于音乐领域来说 , 可能比较有用的一块是需要老师教学的部分 , 如指挥家是如何指挥的、钢琴及其他学习的指法练习等等 。 如果将这些专家的知识收集 , 并形成演示数据以及基于演示数据的强化、示教模型 , 则有可能能帮助机械臂或人类的初学者更好地学习相关的技法 。
音乐人工智能的发展与思考文章插图
图6:艺术的可学习性与模仿示教学习
2、幸存者偏差与艺术的留白
艺术有一个不同于人工智能的地方 , 就是有些作品、风格甚至艺术家本身之所以有名 , 不是因为其学习了大量的知识 , 反而是因为其没有学习太多共性的知识 , 而是保留了其独有的个性 , 俗称“留白” 。
与人工智能算法相比 , 似乎是不能依赖大数据训练 , 才有可能得到这一品质 。 但事实上 , 我们也许可以换个角度来思考 。 “留白”或许有部分是属于“幸存者偏差”的 。 就像二战时期的飞机设计 , 美国哥伦比亚大学统计学沃德教授 (Abraham Wald)通过观察联军轰炸机遭遇攻击后的数据 , 发现尽管飞机上机翼最容易被击中的位置、而机尾是最少的位置 , 但这一观察是因为机尾被击中的飞机都没有飞回来导致的 , 因此 , 不能依靠幸存的飞机来给出判断 , 而应该考虑所有的可能性 。 在此前提下 , 强化机尾的防护才是最合理的 。
从人工智能角度来看 , 它属于反事实推理 (Counterfactual Inference) , 即需要通过引入更多的信息来寻找其真正的答案 , 而非仅基于手头的数据 。 艺术留白 , 也许部分原因是因为我们过多依赖共有的数据 , 却很少对其引入不同的决策评判来分析其独特性导致的 。
那么 , 如果能够多研究人工智能的反事实推理 , 有可能在未来的音乐人工智能研究中 , 艺术的留白这一问题也有可能能被智能算法部分解决 。
音乐人工智能的发展与思考文章插图
图7:艺术的留白与反事实推理
3、核磁共振与歌唱、乐器吹奏研究
人在吹奏乐器、歌唱时 , 头部里的呼吸通道、口腔里舌头和天花板的位置以及其它部分的变化 , 都影响着吹奏乐器或歌唱的性能 。 以歌唱为例 , 不同风格的歌手唱歌时 , 声音的位置处理是完全不同的 。 但因为头部的器官和共鸣位置相关的空间都隐藏在面部肌肉以下 , 往往很难直接观测到 。 因此 , 有可能可以通过伤害性较小的核磁或脑磁设备去监测 , 从而帮助更有效的分析和学习专业歌手或吹奏乐器的技能 。
需要指出的是 , 近年来不少新型检测设备在时间分辨率和空间分辨率两方面都已经得到了大幅度的性能提升 , 这为我们更好地分析歌唱和乐器吹奏提供了可能 。
音乐人工智能的发展与思考文章插图
图8 (a):核磁共振与歌唱、乐器吹奏的研究
音乐人工智能的发展与思考文章插图
图8 (b):核磁共振与歌唱、乐器吹奏的研究 。 右图视频参见:
4、短视频里的对口型辨识
近年来 , 短视频是智能手机中最热门的应用 , 其催生了大量的网红 。 为了能快速成为网红 , 有一些人会抄袭、挪用他人的音乐作品 , 形成对口型的短视频 。 但由于其有可能会在制作短视频前 , 去对原作品进行变调、加电音、混响等处理 , 以至于有的时候一般人不太容易辨识出是否有抄袭或其他不端行为 。 可是 , 这种行为并不利于短视频的良序发展 , 因为如果纵容这一行为 , 也许会让更多的人不愿意花代价做原创 。 考虑到短视频的用户群很大 , 因此 , 利用人工智能去寻找对口型或相似问题作品中的辨识度特征 , 并基于此来判定是否有不端行为 , 就很有实际的应用价值 。
音乐人工智能的发展与思考文章插图