巨人網(wǎng)絡(luò )AI Lab發(fā)布多模態(tài)生成新成果,相關(guān)技術(shù)將開(kāi)源
新浪科技訊 11月27日下午消息,巨人巨人網(wǎng)絡(luò )AI Lab與清華大學(xué)SATLab、網(wǎng)絡(luò )西北工業(yè)大學(xué)聯(lián)合推出三項音視頻領(lǐng)域的布多多模態(tài)生成技術(shù)成果,相關(guān)研究成果將陸續在GitHub、模態(tài)HuggingFace等平臺開(kāi)源。生成術(shù)
本次發(fā)布的新成三項研究成果——音樂(lè )驅動(dòng)的視頻生成模型YingVideo-MV、零樣本歌聲轉換模型YingMusic-SVC與歌聲合成模型YingMusic-Singer,果相關(guān)技展現了團隊在音視頻多模態(tài)生成技術(shù)上的開(kāi)源最新成果。
據悉,巨人YingVideo-MV模型實(shí)現“一段音樂(lè )加一張人物圖像”即可生成一個(gè)音樂(lè )視頻片段。網(wǎng)絡(luò )該模型能夠對音樂(lè )進(jìn)行節奏、布多情緒與內容結構的模態(tài)多模態(tài)分析,從而使鏡頭運動(dòng)與音樂(lè )的生成術(shù)高度同步,具備推、新成拉、果相關(guān)技搖、移等鏡頭語(yǔ)言,并通過(guò)長(cháng)時(shí)序一致性機制,有效緩解了長(cháng)視頻中常見(jiàn)的人物“畸變”與“跳幀”現象。
在音頻領(lǐng)域,YingMusic-SVC主打“真實(shí)歌曲可用”的零樣本歌聲轉換能力。它通過(guò)針對真實(shí)音樂(lè )場(chǎng)景的全面優(yōu)化,有效抑制了伴奏、和聲與混響對歌聲轉換的干擾,顯著(zhù)降低了破音與高音失真的風(fēng)險,為高質(zhì)量的音樂(lè )再創(chuàng )作提供了穩定的技術(shù)支撐。
而YingMusic-Singer歌聲合成模型則支持在給定旋律下輸入任意歌詞,即可生成發(fā)音清晰、旋律穩定的自然歌聲。該模型的主要特點(diǎn)在于能夠靈活適應不同長(cháng)度的歌詞,并支持零樣本音色克隆,提升了AI演唱在創(chuàng )作過(guò)程中的靈活度與實(shí)用性,降低音樂(lè )創(chuàng )作的門(mén)檻。