自洛天依出道至今,她的說話交流均是通過歌聲合成引擎語調或是真人配音來完成制作。而生日會直播里高度流暢的語音,也被觀眾們普遍認為是高水平的AI語調校。其實大家有所不知的是,今年生日會洛天依的說話發聲是由全新的方式——人工智能語音技術創造而成。接下來,一起探秘天依背后的“幕后團隊”是如何幫助虛擬歌手進化出更自然的說話能力!
作為首位中文虛擬歌手,洛天依獨特的治愈歌聲音色受到了粉絲和大眾的廣泛喜愛。今年,Vsinger和嗶哩嗶哩鳴實驗室聯手為洛天依定制打造AI語音聲庫。與業界標準化AI語音不同的是,天依AI語音不僅在音色上高度還原了她標志性的歌聲音色,也在合成效果上平衡了電子機械感和擬人自然感。這樣極具突破挑戰的設計,幫助天依延續了她獨樹一幟的音色,也讓她的AI發聲效果更吻合虛擬歌手的設定。
嗶哩嗶哩鳴實驗室的方案與通用AI聲庫制作流程不同的是,洛天依的聲音本身也是由技術生成的,而非人類自然產生的聲音,所以不能像大多數聲音定制的方案一樣,簡簡單單通過數據采集來定制聲線。
想要得到洛天依說話音頻,可以利用洛天依歌聲聲庫,使用Vocaloid等音頻合成軟件,按照真人說話的韻律規則,手動調出洛天依說話音頻,俗稱語調。這個方法雖然能還原音色,但是會有很多局限性。這個方案需要調教師有較高水平的語調校的經驗,即使這樣也通常很難調教出自然流利的語音內容,而且也很難量產。
為了保持說話音色和唱歌音色的高度一致,并使說話顯得自然流暢,采取了一系列優化。首先,在對洛天依歌聲聲庫進行深入研究和分析的基礎上,定制了一版專門的AI語音模型。該方案在保證內容完整性和音頻自然度的同時,能更好地解耦音色、音高和語義等信息。通過將這些要素分開,能更好地捕捉到洛天依獨特的音色特征,從而高度還原了洛天依的音色。
在模型訓練過程中,嗶哩嗶哩鳴實驗室以洛天依歌聲聲庫作為主要的數據源,為了增加模型的泛化能力和適應性,通過使用多個音色的說話、唱歌數據,讓模型學習到不同發音人之間學習到音色、語義、唱腔等差異和關聯,從而提高模型對于說話和唱歌聲音的理解和轉換能力。使得在保留洛天依唱歌聲線的前提下,可以流利自如的進行語言表達。
在基礎特征上使用了嗶哩嗶哩自研語音識別大模型來提供語義信息,同時也加入了諸如呼吸音的非語義信息來豐富效果。在保證說話與唱歌音色保持高度一致的前提下,也實現了能靈活按需調整語調、語速、語氣等效果,從而使得聲音更加自然生動。此外,為了輸出更高質量的洛天依語音,也引入兩類不同的判別器,進一步提高了合成音頻與目標音頻音色的相似度以及合成音頻的音質。
同樣,在2023年舉辦的BML和BW洛天依線下展演中,也使用了AI語音聲庫。除了洛天依,另一位Vsinger虛擬歌手言和也因嗶哩嗶哩鳴實驗室的技術支持,而首次在今年十周年生日會直播上通過AI語音發聲交流,相信未來會有更多內容與大家互動。
以洛天依AI語音為契機,看到了人工智能語音技術為虛擬歌手賦予真實的發聲能力。在未來,或許能見證AI語音為創作開啟更多無限可能,為觀眾帶來更多聽覺震撼,更多的感動與共鳴!