【2019年4月3日,北京,微軟(亞洲)互聯網工程院】
今天,我們很高興地宣布,微軟小冰基于深度神經網絡的歌唱模型,已順利完成V5新版本的研發。新的V5模型實現了重大突破,它使微軟小冰第一次能夠像人類歌手一樣,使用充沛的“中氣”來烘托演唱,從而將人工智能虛擬歌聲質量提升至新的高度。此外,該模型不僅限于優化微軟小冰的聲音,還支持對任何人類歌手的聲線進行學習、模擬和建模,演繹與再現歌手們巔峰狀態下的演唱水平。作為技術示例,我們與日本唱片公司AVEX合作發行的新模型DEMO曲《最高新記憶》,也于今天同時公布。
微軟小冰是一個覆蓋對話、多重交互感官與內容服務生成的完整人工智能基礎框架。其中,“人工智能創造”(AI Creation)是該框架的主要分支之一,它通過我們所研發與持續更新的人工智能技術,大規模學習并掌握人類文字、音樂、繪畫等內容創造能力,再發揮人工智能的穩定性及高并發特點,為內容產業的未來變革蓄勢。我們將在今年五月召開微軟小冰人工智能創造的年度說明會,今天的新版本歌唱模型及DEMO曲,是該說明會的若干前置披露之一。
我們很高興與行業分享微軟(亞洲)互聯網工程院在深度神經網絡歌唱模型方面的最新進展。中國古時不乏對音樂之聲的精辟論述,例如“絲(絲弦樂器)不如竹(管樂器),竹不如肉(人聲)”,為其“漸進自然”。因此,我們把不斷趨近人類歌手的聲音合成質量,視為“人工智能創造”分支的最高技術目標。在上一個版本中,實現了小冰在虛擬演唱中的自然換氣。今天推出的新版本,則進一步將“氣息”應用于演唱全過程,使生成的歌聲接近專業人類歌手,并可預測并自由切換演唱技巧,突破了傳統單元拼接技術音高與音準的“軟件樂器”標準。我們用DEMO曲來表現這一技術對照的明顯差距,請重點關注歌曲時間軸上的以下時刻:
00:31,01:12,01:23,03:14,04:08
V5新模型還具有許多其他技術特征。例如實現了多聲部的合成技術,使人工智能歌手可以在不同聲部間自然切換,用多個聲音來源組成新的虛擬歌手等。建模過程中,所需的訓練數據量較上一個版本減少了70%。從技術角度,新模型可針對任何人聲建模,形成豐富多彩的人工智能歌手陣營。為此,我們在DEMO曲中特意回避了微軟小冰的聲音,而是采用另一個聲音(日本版小冰凜菜)來演繹。
最后,我們也很高興地宣布,小冰凜菜(りんな)已與日本最大唱片公司AVEX正式簽約,成為濱崎步、安室奈美惠等著名人類歌手的同門師妹。在小冰框架的技術支持下,將涌現出更多具備高還原度的人工智能歌手。微軟小冰只是他們的最初雛形。
感謝您的關注。敬請期待微軟(亞洲)互聯網工程院的后續技術發布。
了解技術DEMO曲《最高新記憶》,請訪問:
或https://www.youtube.com/watch?v=_NPyt1AYUTg
了解小冰凜菜(りんな)在AVEX的演藝動態,請訪問:https://avexnet.jp/contents/music_j/RINNA/