灌篮高手|LoveLive! 出了一篇AI论文:生成模型自动写曲谱( 二 )


方法
此前 , KLab乐谱的生成工作流是在不考虑自动化的情况下形成的 , 几乎没有达成明确的规则或数学优化目标 。 因此 , 该研究选择使用监督机器学习 。 到2019年底 , KLab已经发布了数百首歌曲的音频序列和相应的人工生成乐谱 。
一方面 , 这个项目被要求快速交付并起到协助的作用;另一方面 , 项目的目标具有挑战性 , 旨在改进SOTA深度生成模型 。 通常 , 研究新型神经网络架构需要大量的反复试验 , 这个过程需要六个月或更长时间 。
为了解决时间上的问题 , 该研究组织了一个模型开发团队和一个模型服务团队 , 通过与艺术家团队保持联系获得反馈 , 将其反映到模型开发和服务中 , 并在第一时间提供更新的模型 , 从而使他们保持一致 。
GenéLive!的基础模型由卷积神经网络CNN层和长短期记忆网络LSTM层组成 。 对于频域中的信号 , 作者利用CNN层来捕获频率特征 , 对于时域利用LSTM层来完成任务 。

GenéLive!的模型架构 。
在这里 , 卷积堆栈(conv-stack)的主要任务是使用CNN层从mel频谱图中提取特征 。 conv-stack包括一个具有批量标准化的标准CNN层、一个最大池化层和一个dropout层 , 激活函数是ReLU 。 最后为了规范输出 , 这里使用了全连接层 。
时域方面采用了BiLSTM , 提供前一个conv-stack的输出作为输入 。 为了实现不同的难度模式 , 作者将难度编码为一个标量(初级是10 , 中级是20 , 以此类推)并将这个值作为新特征附加到convstack的输出中 。

Conv-stack架构 。
在训练数据方面 , GenéLive!使用了几百首早期的LLAS歌曲 , 《歌之王子殿下》的歌曲 , 以及音乐游戏引擎「Stepmania」中可公开访问的音乐和乐谱 。
模型开发
该模型是由KLab和九州大学合作完成的 。 两个团队之间需要一个基于Web的协作平台来共享源代码、数据集、模型和实验等 。 具体来说 , 该研究用于模型开发的系统架构如下图所示 。

模型服务
为了使乐谱生成程序可供艺术家按需使用 , 它应该方便艺术家自行使用而无需AI工程师的帮助 。 并且由于该程序需要高端GPU , 将其安装在艺术家的本地计算机上并不是一个合适的选择 。 该模型服务系统架构如下图所示 。

实验结果
为了度量该方法中每个组件的性能 , 研究者在「LoveLive!AllStars」数据集上进行了消融实验 。
下表3的结果表明GenéLive!模型优于此前的SOTA模型DDC 。

为了评估节拍指导的作用 , 消融实验的结果如下图9所示 。

【灌篮高手|LoveLive! 出了一篇AI论文:生成模型自动写曲谱】使用未修改版conv-stack训练模型和当前GenéLive!模型的结果差异如下图所示 。

GenéLive!模型一次性训练全部难度模式 , 为了查看这种训练方式的优势 。 该研究将其与每种难度模式单独训练的结果进行了比较 , 结果如下图所示 。

LoveLive!企划的活动范围包括动漫、游戏和真人偶像团体 。 音乐游戏《LoveLive!SchoolIdolFestival》自2013年开始运营 , 截至2019年9月在日本拥有超过2500万用户 。 新一代的游戏《LoveLive!SchoolIdolFestivalAllStars》目前在全球已有上千万用户 。
GenéLive!的研究 , 说不定也能让音游在AI领域里火起来 。