“Moises”如何将歌曲拆分成不同的部分
你是音乐人吗?其实也不用,但凡你喜欢听歌,“Moises”就能给你带来妙不可言的体验。
这是一款有 AI 加持的神奇 App,借助机器学习模型,它可以将录制歌曲中的人声、吉他、贝斯、鼓等进行分离。这意味着你可以移除吉他独奏,并替换成自己的演奏;可以将嘻哈曲目中的节拍分离出来;可以去掉除人声以外的所有内容,将任何歌曲变成无伴奏合唱;还可以调整歌曲的音高,检测并显示和弦,以及配合智能节拍器同步演奏。
“新一代机器学习模型实现了非常多的强大功能,”Moises 联合创始人兼首席执行官 Geraldo Ramos 说。
Moises
兼容平台:iPhone、iPad
团队规模:100 人
所在国家/地区:美国、巴西
奖项:年度 iPad App (2024)、Apple 设计大奖入围作品 (2025)
Moises 由一支具有音乐背景的巴西团队创立。“我们骨子里是技术宅,但始终对音乐满怀热忱,”Ramos 说。2019 年,“Moises”只用了一个周末的时间,便完成从构思到网上发布的整个过程。不到一年后,“Moises”登陆 App Store,瞬间便斩获数万下载量。如今,“Moises”用户规模已超 6000 万,涵盖在家习的七年级学生、音乐教师、专业音乐人、制作人和声乐教练等不同用户群。它还被本地化为 33 种语言。
我们采访了 Ramos、联合创始人兼首席运营官 Eddie Hsu 以及联合创始人兼首席设计官 Jardson Almeida,探讨了机器学习模型、非常规拍号以及在 Abbey Road Studios 录音的经历。
我们先来聊聊音乐:各位都有什么样的艺术背景?
Ramos:我打鼓,Jardson 是主唱,Eddie 拉小提琴。我和 Eddie 从幼儿园就认识了,他有古典音乐的背景,还懂乐理,所以算是专业人士。公司里到处都是音乐人:我们的一位艺术家关系专员毕业于伯克利音乐学院,而机器学习团队几乎清一色都是玩音乐的。他们喜欢数学,也热爱音乐。
这一切是如何开始的?
Ramos:我开启这段探索之旅,是因为我想从录制的歌曲中去除鼓音轨,这样我就能跟着演奏了。在机器学习技术出现之前,这基本上是不可能实现的。虽然你可以对音频进行均衡处理或移除低音频率,但效果并不理想。直到 2019 年左右,这个构想才真正成为现实。
你们是如何将这一现实转化为 App 的呢?
Ramos:“Moises”最初是一个周末突发奇想的快闪项目。起初,我们发现了一个由法国研究团队创建的开源模型,他们发布了简单的歌曲分离代码。这个模型没有用户界面,没有 App,什么都没有,却比其他任何东西都好用。我想:“好吧,我在周末创建一个用户界面,看看会怎么样。”我在周一将它发布到网上,到周末时,已经有 5 万人注册了。就在那时,我们决定将它发展成真正的业务。这个快闪技术项目发生在 2019 年 11 月,而我们在 2020 年底就推出了 iOS App。业务发展得很快。
看到这款 App 如此受欢迎,你们有什么样的反应?
Ramos:这很棒,但它也让我们意识到,如果我们想成为一家真正的 AI 公司,就需要开发自己的模型。因此,在 App 发布之前,我们就开发了第一个使用我们自己的数据训练的专有模型。
这些数据都来自哪里?
Ramos:这包括授权音乐以及我们自己的音乐人和制作人创作的音轨。在授权方面,Eddie 负责数据采集、创建和注解,我们实际上有一个专门用于注解的内部 iOS App。我们通过这种方式来评估音轨,比较哪种分离效果更好,并进行排名。
Hsu:这是我们的一大优势,我们亲自为模型完成所有标注。这让我们可以顺利融入 Apple 生态系统,为预训练做好准备。
你们也会录制自己的音乐吗?
Hsu:当然!我们拥有大量从未公开过的音乐。我们曾委托音乐人在 Abbey Road 进行过一次录音,为我们的数据科学团队录制了一些作品。
你们是如何委托录音来填补数据缺口的?你们会让音乐人做些什么?
Hsu:举例来说,我们有一个模型可以检测一首歌的拍号。我们授权的很多数据,比如流行歌曲,都是标准的 4/4 拍。但为了改进模型,我们需要更加多样化的数据,因此我们最近委托录制了一些 5/4 拍和 6/8 拍的作品。我们这么做也是为了改进和弦检测:流行歌曲的和弦可能非常简单,但如果你演奏的是爵士乐或波萨诺瓦音乐,和弦可能会更复杂,因此我们需要更多数据,来打造一个能够检测复杂和弦的模型。此外,我们尊重音乐人并严格遵守版权规范,因此在委托录制这些作品时必须非常谨慎。
你们可以分离多少种乐器?
Ramos:有两种分离级别。第一种级别是分离基本音轨:吉他、鼓、人声等等。第二种级别更深入,可以分离主音吉他和节奏吉他,或者分离小军鼓、踩镲和底鼓。
Hsu:刚开始的时候,我们有用于四条音轨的预设,现在已经有用于 20 多条音轨的预设了。
“Moises”非常适合学生,但专业音乐人和声乐教练也在使用它。你们如何确保它适用于不同技能水平的用户?
Hsu:我认为这取决于功能设计。每个人都是学习者,对吧?刚开始学打鼓的学生可能需要放慢歌曲速度来学习。其实专业鼓手也是这样;我们从不少鼓手那里听说,他们在需要学习一些高难度内容时,就用“Moises”放慢音轨速度,直到把各个部分都掌握得恰到好处。这让我们意识到,用户的需求有很多重叠的地方。