這幾周,全球無不對AI音樂大模型那”以假亂真“的音樂創作能力感到驚奇不已,甚至有人認為“AI將革新音樂產業”。
而位居這場革新風暴中心的,正是昆侖萬維推出的國內唯一公開可用的AI音樂生成大模型——「天工SkyMusic」。
自開啟邀測以來,「天工SkyMusic」已經在互聯網上刷爆了存在感,成為網友們改編、二創音樂的新晉網紅神器。
遲遲等不到的“音樂ChatGPT”時刻
相信大家在體驗「天工SkyMusic」時,都會有一個疑問:隔壁AI視頻生成大模型都開始輔助創作了,為什么「天工SkyMusic」這類AI音樂生成大模型才才嶄露頭角?
原因在于構建生成高質量音樂的AI大模型,所面臨的復雜度遠超想象。
一方面是技術路線的選擇,AI音樂生成大模型有兩種主流技術路線,符號音樂生成和大模型音樂音頻生成。前者以MIDI為主要流派,其本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個音符被播放、音量是多少、音符持續的時間等,不能生成直接聽的音樂。
學術與產業界在符號派的AI音樂生成上投入了大量研究,但是始終效果不佳。
相反,深度學習大規模音頻數據則通過大模型端對端的方案,直接生成包含樂器、人聲、旋律等音樂元素的完整音頻作品。它需要模型具備極高的模擬精確度、大規模的高品質音頻數據集、龐大的算力支撐……
這是一條預期效果更好,但是難度非常高的技術路徑,業內只有很少玩家展開研究。
同時,鑒于歌聲在音樂審美中的核心地位,AI對人聲歌唱逼真模擬的研究也尤為關鍵。遺憾的是,受限于技術發展,以往AI音樂生成模型更關注無人聲演唱的背景音樂(Background Music,BGM)領域,而非包含人聲演唱的Song領域,因此行業內缺乏有效的解決方案。
因此在AI音樂生成領域,無論是OpenAI的JukeBox、Meta的MusicGen,還是Google的MusicLM,它們雖然逐步解決了AI音樂生成中的痛點,但距離生成高品質且類型豐富的音樂作品還有一定距離。
「天工SkyMusic」自研發階段即確立目標,要開發一款輔助用戶創作高質量音樂的工具。團隊毅然選擇了AI音樂生成大模型的道路,并決定重點攻克人聲歌唱難題,勇敢涉足AI音樂制作領域內兩個最具挑戰的無人區。
「天工SkyMusic」架構誕生記
面對大模型音樂音頻生成+人聲Song這兩個近乎空白的技術領域,昆侖萬維傾注了海量研發資源和算力算法投入,不斷試錯,終于自主研發出一套音樂音頻領域的大模型架構。
這是一套類似Sora的DiT大模型架構,采用LLM+Diffusion的核心模塊組成。
其中,用戶輸入的參考音樂會被拆解為不同的Music Patches,由Large-scale Transformer負責譜曲,來學習Music Patches的上下文依賴關系,同時完成音樂可控性。
同時,Diffusion Transformer將負責大模型的“演唱”部分,通過LDM(Latent Diffusion Model)擴散模型讓Music Patches被還原成成44.1KHz的高品質立體聲的音頻。
昆侖萬維這套高效、靈活且具有情感表達能力的音樂生成模型架構,填補了音頻生成+人聲Song這兩技術領域的空白,堪稱AI音樂生成領域的一大技術飛躍,也讓昆侖萬維公開「天工SkyMusic」技術原理圖的舉措更讓人敬佩,它不僅打破了行業內的封閉狀態,更為更是為整個產業鋪墊了一條可復現的技術路徑,大大降低整個AI音樂生成產業的研發風險。
AI音樂破曉:「天工SkyMusic」的中國式突破
從「天工SkyMusic」的技術分析中我們可以看到,昆侖萬維在研發過程中克服了諸多技術難題,為我們打造出一個真正意義上,能高效創作高品質音樂的AI音樂生成大模型。在這里,我們可以生成時長80秒,采樣率44.1KHz的雙聲道立體聲歌曲,還可以通過歌詞控制歌曲的情緒變化,精確區分不同音樂結構間的情感起伏,也可完成各種復雜歌唱技巧。
而且較之國外同類產品,「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發音純正清晰,無明顯機械痕跡,效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達更為出色,也在表達中國文化特有的意境與情感內涵時,更加貼合國人的審美習慣與情感認同,形成獨有的差異化優勢。
情感AGI待放:天工SkyMusic」引領情感創作變革
「天工SkyMusic」作為昆侖萬維 “All in AGI和AIGC”戰略下在音樂領域的先鋒之作,填補了傳統AGI側重于智力拓展而忽視情感維度的空白,標志著昆侖萬維在情感AGI研究中取得的重大突破。
如今,「天工SkyMusic」不僅降低音樂創作門檻,讓更多普通用戶能夠借助這款全民音樂創作工具的力量,更好地通過音樂這一媒介,表達自己的情感和創意。未來,隨著昆侖萬維在情感AGI技術上不斷的突破,「天工SkyMusic」將具備更多令人驚嘆的創作能力,亦有望成為輔助專業音樂創作者的利器。