入门音乐人工智能的必备知识

0

最初的音乐生成

1787 年,莫扎特组局“音乐骰子游戏”,玩家通过多次掷骰子来将预先写好的音乐片段串在一起,这些片段与骰子的六个面相关联。最终的结果是一首由片段随机组合的完整的乐曲——可以不断得到新的乐曲,由此开创了随机创作的先河。

具体的效果可以参考这个链接:https://vician.net/cs/mozart/

随着1950年代计算机的问世,也诞生了一批计算机音乐作品,早期的计算机音乐构建了马尔科夫过程,利用随机模型并辅以rule-based的方法生成符合要求的成果。后来又随着机器学习技术的发展,如何运用算法和模型生成更自然的音乐成为一个新的前沿科研领域。

经过近百年的推动,部分AI创作已经达到可以以假乱真的地步。

这是获得法国作曲家协会(SACEM)的资格认证的AIVA生成的作品:

【Aiva – 一小时音乐合集】 https://www.bilibili.com/video/BV1jW411T7F9?share_source=copy_web&vd_source=7b0d73d8114eee0bff1b506ce3701539

随着算力和数据的不断增加,AI音乐技术也在不断进步。如果没有一定音乐基础的话,很多人是无法察觉出AI创作的音乐和人类创作的音乐之间的区别。

音乐人工智能究竟发展到什么水平了呢?已经应用在哪些领域了呢?

真实的情况是:研究略有,应用市场相对空白。

相比机器人、语言识别、图像识别、自然语言处理等人工智能的研究方向,音乐人工智能是一个相对小众的分支,获得的关注和进展也相对缓慢。

目前大多数的研究还处于模型和算法的研发阶段,主要集中在了如何将RNN,GAN,VAE等在其他领域大放光彩的模型应用到音乐生成的方向上。

现阶段的人工智能还只能依靠统计学对已经创造出来音乐进行复杂的归纳后,再根据概率进行音符的组合,也就是说现有统计学理论基础决定所有的AI音乐生成都是随机过程,导致的成果品质良莠不齐,还无法稳定地投入到商业生产环节。

而AI的自主创新是一大挑战也几乎不可能完成。就像卡农不知养活了多少钢琴师,AI可以在拥有先例的情况下尝试小范围的调整,但永远也跳不出那个框,永远无法产出新的东西。如何创造出卡农这种范式,则仍是天才们的领域。或许之后符号主义的知识图谱(knowledge graph:把事物间复杂的逻辑关系用图论展现)能够帮助AI拥有更多的创造力。

音乐人工智能的商业动态如何?IT人员入局的机会点在哪?

国内外市场上,人工智能科技巨头公司和一些大公司虽然在积极布局,但是暂时还没产生实质性收益。

国外:

AIVA Technologies

2016年发布了第一首人工智能交响乐

NVIDIA的AIVA音乐样例(2016年,交响乐):

https://www.bilibili.com/video/BV1ob411B7yv

 

微软亚洲研究院的muzic

微软亚洲研究院机器学习组一直致力于 AI 音乐的研究,研究课题包括词曲写作、伴奏编曲、歌声合成、音乐理解等。2021年9月,微软推出了AI音乐开源项目Muzic, 涵盖了之前在 AI 音乐的一系列研究工作。

第一期开源了音乐理解和生成方面的5个研究工作,包括音乐预训练模型MusicBERT,自动歌词转录方法PDAugment,词曲写作模型SongMASS,说唱生成模型DeepRapper,歌词到旋律生成系统TeleMelody,更多AI音乐的研究工作还在持续开放。

AI 音乐研究项目主页:

AI Music – Microsoft Research

Muzic 开源项目页面:

GitHub – microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence

 

谷歌的Magenta

谷歌Magenta项目主要研究如何将艺术与科技结合,发展出一种新的艺术形态。所以他们的研究内容除了音乐生成外还包含了很多图像类的内容,比如根据音乐让AI作画。

https://magenta.tensorflow.org/paint-with-music

国内:

字节跳动的bytesings

2020年4月,字节跳动人工智能实验室发表了一篇关于中文歌声合成系统的论文——《 A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders》。

论文提出了一种基于持续时间分配的的类似Tacotron声学模型和WaveRNN神经网络声码器的中文歌声合成(SVS)系统——ByteSing。

本文提出的SVS系统可以通过提高音调和频谱图的预测精度来产生自然的、富有表现力的和高保真的歌曲,并且使用注意力机制的模型可达到最佳性能。 结果表明,ByteSing能够达到人类歌唱水平的80%以上,这也是字节跳动研究者首次尝试的歌声合成任务。

 

网易天音

2022年1月,网易推出AI创作平台“网易天音”,主要实现编曲环节(顺便解决了混音环节)的自动化,用AI的方法尽量低门槛地将作者的作品直接带到母带这一步。

模型依赖于三个输入。第一个是全局的风格特征,第二个是音乐作品的结构(verse-bridge-chrous),第三个是和弦走向。

模型输出则是一段音频,即做了一定混音的编曲音轨(没有分轨导出,能定制的程度有限)。

 

此外:

行者AI团队“小嗨”在智能创作上,已实现识曲、作词、作曲等功能,作品已实现商业化授权和应用;

中国平安AI作曲在世界AI作曲国际大奖赛中获得第一,创作AI交响变奏曲《我和我的祖国》;

 

人工智能是否能完全取代人类进行音乐创作?

这里想说,音乐创作里既有容易模仿的乐理内容,也有复杂多变的感情表达,有时还需要有现场互动,才能创造出高山流水这样的佳话。艺术不是简单的堆砌,现阶段的科技无法模拟人类艺术创造的过程。

人工智能的脚步还在继续,但现阶段的AI还是只能依靠统计学,对已经创造出来音乐进行复杂的归纳后,再根据概率进行音符的组合。就像卡农不知养活了多少钢琴师,AI可以在拥有先例的情况下尝试小范围的调整,但永远也跳不出那个框。

如何创造出卡农这种范式,则仍是天才们的领域。

给我们留言