平安首创AVM自动变奏模型，探秘全球首部AI交响变奏曲硬核技术

机械之心原创

作者：思、一鸣在新中国成立 70 周年之际，安然人工智能研究院的学者们构建了首个交响乐创作模型，推出了全球首部 AI 交响变奏曲《我和我的故国》。这首交响曲作为新中国成立 70 周年的献礼之作，于 10 月 11 日由深圳交响乐团进行全球首次公演。

AI 交响变奏曲吹奏现场

想要听听 AI 创作的交响变奏曲？读者们能够点击下面音频看看 AI 在艺术创作范畴的潜力究竟有几多。

《我和我的故国》原本就是家喻户晓的经典曲目，在保留原曲气势的根蒂长进行二次创作，使其具有光鲜的时代特色、付与其新时期新的内涵，无疑对人工智能是一个挑战。机械之心就此采访了AI交响变奏曲《我和我的故国》曲目团队手艺负责人，揭秘这首国庆献礼乐曲背后的硬核手艺。

据认识，AI 交响变奏曲《我和我的故国》运用了安然首创且行业中尚未揭橥的具有独创性的 AVM 主动变奏模型，它会行使深度进修手艺对音乐作品实现多维度的特征进修与提取，并连系强化进修手艺让机械学会变奏手法。总体上，连系划定系统的作曲经验，以及深度模型的进修能力，AI 能找出最能透露主题感情的音乐片段。

声声闻来皆辛劳，AI 谱曲不平常

可以谱写出波澜壮阔的交响变奏曲，需要的不光仅是模型与数据的交汇。在 AI 生成《我和我的故国》交响变奏曲的过程，团队碰到了好多分歧的挑战，随之而来的则是诸多手艺范畴的立异和冲破。据悉，这是全球范畴首次测验借助 AI 谱写交响变奏曲。尽管在这一阶段，好多问题都需要用专家划定判断和约束，但经由 AI 与专家常识的连系，使得「AI+音乐」能在教育、配乐等更普遍的实现分歧形式的索求和测验。

两个世界第一

行使 AVM 架构模型生成的 AI 交响曲，实现了两个世界第一：全世界第一个可以进行多旋律交响乐谱曲的 AI 以及全世界第一个可变谱曲气势的 AI。尽管曩昔好多研究都进行了 AI 谱曲的工作，但生成的乐曲都是单旋律的，个中没有和声、对位，也没有区分声道等音乐中的必备要素。如许的生成究竟仅仅只是音符的组合，和实际生活中我们听到的真实歌曲还差了很远。

背后原因在于，今朝大部门算法模型并没有完整地输入乐曲的悉数信息，而仅仅只是单个音符的序列。研究院在生成乐曲的过程中，采用了多种类别标签的音乐数据，使 AI 同时进修到了曲子的节奏、和声、对位、调式等八种类其余音乐信息，并凭据这些信息进行谱曲工作。

此外，曩昔的多个 AI 生成的究竟都带有同样的弊病：仅能实现一种曲风。以谷歌在巴赫诞辰日的产物为例，AI 仅能凭据人们输入的旋律进行巴赫气势的模拟，无法换成其他气势。

而据安然研究院介绍，他们的人工智能算法使用了 VAE 模块，其目的就是为了让模型可以凭据用户提出的语义信息要求，调整模型的超参数，使得最一生成的乐曲相符用户的需求。如许一来，AI 实现了真正意义上的「按需谱曲」，而不是带着以模拟为焦点功能的传声筒。

谱曲到吹奏的「最后一公里」由人类专家完成

要包管生成的曲子在实际表演达到预期结果，这是有相当浩劫度的。

首先，若何将语义信息行使 AI 融入曲子中呢？行使神经收集壮大的拟合能力，安然人工智能研究院选择了数万个旋律片段，并凭据其表达的感情打上感情标签，然后在模型中使用 transformer 进行练习。如许一来，隐层向量能够进修到特定模式的旋律所对应的语义标签信息，对谱曲中设定好的语义要求进行旋律上的关系。

另一个问题则是 AI 谱曲和真实吹奏之间显现的断层问题。我们知道，好多时候序列的生成时不太好掌握和约束，不免会显现非常的音符旋律组合。如许会导致 AI 生成的究竟无法在实际中进行吹奏。例如，一些音符的组合对于人类而言难以吹奏（好比指法无法切换），或许生成的旋律不相符乐理纪律等。

对于如许的问题，研究者引入了专家常识，使用划定和人类专家干涉进行调整和约束。例如，用乐理划定主动化地对错误的序列进行调整，并引入专家进行评价，让人类作曲家进行调整和改善，使得乐队能够吹奏最终的谱好的曲子。

AI+音乐：应用场景广宽

为什么要做 AI 和音乐连系的应用？在安然看来，AI 在音乐场景中有好多应用，有广宽的市场空间待挖掘。

用 AI 辅助歌曲生成，在乐理和文化研究、音乐教育和娱乐消费市场有大量的应用场景。首先，经由 AI 生成特定气势的音乐，有助于研究乐理理论、研究特定地区、文化中的乐曲气势。同时，使用 AI 生成音乐，能够辅助教师传授音乐常识。在娱乐范畴，好多短视频和场景有音乐生成的需求，有了 AI，能够针对视频中的语境，或用户对使用场景的需求进行定制，快速生产音乐产物。

安然也已起头测验将 AI 作曲与..运动场景相融合，方才收官的「安然 920：以 AI 之名」大型综合金融..运动中，经由个性化的人人作曲游戏，吸引消费者注重力，降低获客门槛，提拔主业价格。将来，「AI+音乐」还将连系安然的金融、医疗、聪明城市等生态，索求音乐治疗、音乐生活、音乐教育等多范畴的连系情形，可预期，在 AI 音乐的贸易价格层面将无可限量。

将来，安然人工智能研究院进展可以进一步索求 AI+音乐的各类应用，让 AI 不光可以谱曲，还可以作词，并在生成谱子的时候更为智能，更相符真实的吹奏情况。AI 交响变奏曲手艺负责人透露：「AI 在音乐场景中的应用依然处于『婴儿时期』，我们甘愿挑战尖端范畴的研究。」

多架构融合谱写变奏交响曲

采访中，安然人工智能研究院相关负责人首先介绍了这一大型献礼项目的创作流程。首先，研究院对国庆献礼进行了商议，确定使用《我和我的故国》作为根蒂曲目，连系《在进展的野外上》等经典曲目，进行整体的创作工作。在此根蒂上，负责创作的研究者需要为歌曲确定大略的故事脉络走向，为交响乐整体确定故事主题，匡助 AI 约束乐曲变奏过程中的语义信息。

如上所示为首部 AI 交响变奏曲首要生成手艺，在海量乐曲数据和系统化的标注下，Transformer 等深度模型能进修到该若何生成变奏段落。但生成的利害并不克直接判断，是以就需要音乐评价模型与专家划定系统来确定什么是好的变奏曲。下面，让我们具体看看 AVM 模型整体的谱曲过程。

AI 作曲主导，专家评价点窜

从算法角度来说，交响变奏曲的谱曲过程雷同于对序列数据进行处理和从新生成的过程。输入数据是一段音符序列，而输出则是和输入雷同，但进行了点窜，和原曲有必然差别的新音符序列。在生成过程中，模型还需要可以凭据创作方提出的需求，络续调整模型的参数，使其可以凭据要求在生成的序列中融入特定感情语义信息。在完成作品后，乐曲会交由专业人士进行点窜和调整，确保相符交响乐的创作划定，具备传承经典性。

尽管谱写乐曲时，模型需要对序列数据进行处理，是以会用到 Seq2Seq 模型。然则，机械之心从安然人工智能研究院认识到，与一样的 Seq2Seq 模型分歧，谱写变奏交响乐要求变奏段落以根基段落为根蒂，并表达分歧的感情或语义。这就需要 Seq2Seq 模型同时具有迁徙气势的能力。

为了使模型可以达到设计要求，研究院使用了大量的乐曲和带标注的旋律数据练习模型，然后用练习好的模型对《我和我的故国》等根蒂曲目进行处理。总共生成了 4 个版本的曲目，交由音乐家进行评价、调优，并最终交由专业的表演乐队进行吹奏。

在模型的进修过程中，模型会对音乐作品进行多维度的特征进修，它会融合分歧的音乐元素，从而衍生出各段落的音乐主题与对位形式，这就是一种主动变奏手艺。评价模型其实后背还会对生成的变奏曲进行评估，从而选择最佳的音乐片段。

主动变奏模型

安然 AI 团队透露，他们对变奏的分歧需求使用了分歧模型。首先，安然 AI 团队基于 Transformer 架构构建了一种根基变奏模型，然后基于 VAE 架构斥地出气势迁徙模型，这个中还包罗对位算法及节奏量化算法等等。

如下图所示，团队会在生成变奏曲之前预练习 Transformer 编解码器，将长序列音乐主题进行降维表征，让他学会主题的音乐特征。若是将预练习 Transformer 的编码器与解码器星散来看，编码器能将输入信息编码为一个隐向量。这一隐向量包含了音乐主题的特征信息；而解码器则能将隐向量解码为分歧的变奏曲。

练习过程中，Transformer 编码器构建的隐向量会被强化进修的 Agent 作为状况表征，用于透露分歧的音乐气势与主题特征。Agent 行使 DQN 构建 Q 值函数，用于生成主题低维表征作为 action，这些低维表征之后能够经由 Transformer 解码器生成完整的变奏曲。当前阶段，模型需要经由专家变奏划定库与奖励函数来评价生成变奏曲的利害，并将利害水平转换为对模型的奖励反馈给 Agent。Agent 会在奖励的使令下生成相符预期的变奏曲。

在生成阶段，Transformer 解码器生成的变奏曲会直接经由配器和后期处理，从而缔造出真实情况下交响乐的音响结果，这个时候专家就能够对生成的乐曲进行判断，若是达到要求就能够直接输出乐谱。

上面只是简要的整体流程，个中 Transformer、DQN、专家变奏划定库等模块都起到了非常主要的感化。然则对于生成特定气势的变奏段落，预练习的 Transformer 和能到场气势特征的 VAE（变分自编码器）显得非常主要。

Transformer+VAE：AVM 的两大模块

Transformer 在 NLP 中是非常精良的生成模型，岂论是机械翻译照样常识问答，它可以行使自注重力机制都能很好地完成这些义务。而变分自编码器（VAE）在图像生成范畴也大展身手，它最精良的特点是能进修到数据中某些隐藏的特征。好比说，VAE 进修到的隐向量中，某个元素可以表达数据「欢畅」的水平，而另一个元素则可以表达「民族风」的倾向水平。

若是可以行使好两个模型的优势，在预练习过程中让它们学会各自的手腕，那么模型在谱曲的过程中就能把需要表达的音乐元素融合在一路。

如下所示，摆布两图离别为使用 Transformer 和 VAE 构建的主动变奏模型。个中，Transformer 能够很好地编码曲谱这种序列数据，若是我们将根基段落作为源序列，再将标注的变奏段落作为方针序列，那么模型就会主动学会如何将根基段落变换为变奏段落。

那么，这两个模型该若何合作才能构建更合理的变奏段落呢？安然 AI 团队透露，Transformer 是一种根基变奏模型，它进修到的是根基段落与变奏段落之间的不同，然则，无法按照使用者的需求，将变奏曲中需要表达的各类特征手动地加进去。例如我们进展变奏曲变得更「欢畅」一些，同时又带有一些「民族风」特色。

然则 VAE 则正好能进修到这些特征。经由调整 VAE 的隐向量，我们能够为变奏段落付与同的气势。安然 AI 团队透露，因为整个交响曲反映了从鸦片战争到如今中华民族答复的奋斗主题，是以分歧的音乐元素还需要融合，它们需要经由 VAE 加到尺度变奏曲中。

AI 编曲的数据之本

对于机械进修模型，数据是最主要的，要学会生成一样的变奏段落，就要求有海量的根基段落和变奏段落；要学会各类曲调气势特征，就要求有各类音乐标签，从而确定分歧的旋律究竟代表什么语义标签。安然 AI 团队透露，练习数据使用了跨越 70 万首乐曲，包罗各类题材的古典音乐作品、红色歌曲，以及民歌等作品。研究者用此数据集进行构造化练习，让机械进修及懂得音乐主要特征。

除了乐曲的储蓄，安然 AI 团队透露，他们还储蓄了全方位的音乐数据，包罗歌词、各类专家划定、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多范畴、全方位的音乐数据，才能将它们组合在一路构建更精良的模型。

多样化的音乐特征标注

有了海量的音乐数据后，这些乐曲应该经由什么样的标注才能知足练习机械进修模型的要求？

在项目中，安然 AI 团队首要从两个层面临构造化的乐曲进行标注。第一，团队需要确定练习用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪，并按照确定好的主题内容对对应的旋律进行标注。有了这些标注，才能向模型灌注带有语义标签的音乐数据，缔造出描述故事脉络和特定主体情绪的变奏曲，这一层面的标注由音乐家和主动化的法式合营完成。

第二，团队需要对音乐作品进行定量剖析，凭据剖析究竟进行数据标注。音乐作品自己的构造化信息首要示意为成长手法、和声、曲式、对位、配器、调性、调式、拍号等八个维度。数据标注顺从音乐理论常识，由音乐理论专家团队标注完成。

如今，认识数据的首要构造后，就能更清楚地舆解模型构造了。首先将音乐乐谱改变成特定编码花样的词序列，再将上述标注数据作为前提约束嵌入个中。在生成阶段，能够对这些维度进行操控，好比变调、约束和声序进等。

最后，数据与机械进修的合营是非常壮大的，像变奏曲这种需要大量原创性的工作，这项研究工作也表明 ML 拥有壮大的能力。固然今朝主动变奏模型还有好多改善偏向与或者性，但安然的 AI 变奏交响曲的确证实了 ML 在艺术范畴的潜力。