圖源:界面新聞 正如他對Sora 2和Nano Banana的爆點(diǎn)判斷,除去OpenAI對多模態(tài)生成類(lèi)產(chǎn)品的轉移至多初步構想成型,以及谷歌對圖像編輯器現階段用戶(hù)需求的模態(tài)把握(例如錨定一個(gè)點(diǎn)進(jìn)行針對性修改),兩款產(chǎn)品在生成質(zhì)量上并未實(shí)現飛躍。體現 并且,什行勢在很大程度上,爆點(diǎn)以“文生圖、轉移至多文生視頻”為代表的模態(tài)多模態(tài)生成領(lǐng)域,其表現優(yōu)化是體現以文本模型性能提升為前提。階躍星辰創(chuàng )始人兼CEO姜大昕此前在接受界面新聞?dòng)浾卟稍L(fǎng)時(shí)指出,什行勢理解與生成之間的爆點(diǎn)關(guān)系是,理解控制生成、轉移至多而生成監督理解。模態(tài) 一級市場(chǎng)也在見(jiàn)證這種關(guān)注點(diǎn)切換。體現一名AI投資人對界面新聞?dòng)浾弑硎?,什行勢他的體感是今年行業(yè)整體投資事件增多,但投資規模在降低,這是投資重點(diǎn)由模型層向應用層過(guò)渡后,后者的市場(chǎng)規模及估值所決定的。 在這之中,今年最顯眼的一筆來(lái)自應用層視覺(jué)創(chuàng )作領(lǐng)域的LiblibAI。10月23日,LiblibAI宣布完成1.3億美元B輪融資,紅杉中國、CMC資本等參與其中,促成今年國內資本市場(chǎng)AI應用賽道最大的一筆融資。這意味著(zhù)相較其他賽道,團隊的PMF(product-market-fit)更大程度受到資本認可。 在往后很長(cháng)一段時(shí)間,業(yè)界能夠期待的“爆點(diǎn)”或許都將更多來(lái)自于多模態(tài)領(lǐng)域。 姜大昕一直強調的觀(guān)點(diǎn)是,光有語(yǔ)言的智能不夠,多模態(tài)是大模型的必經(jīng)之路。而在這片領(lǐng)域,理解與生成的統一仍是現階段的突破點(diǎn)。 多名受訪(fǎng)者曾對界面新聞?dòng)浾弑硎?,站在模型訓練角度,視覺(jué)模態(tài)比文本模態(tài)面臨的挑戰更大。單從數據上來(lái)看,文本的表征可以在語(yǔ)義上自閉環(huán),但視覺(jué)信息的表征需要先與文本對齊,不存在天然自閉環(huán)的數據,“可能需要幾次像ChatGPT、強化學(xué)習范式這樣的大技術(shù)變遷才能解決?!币幻茉L(fǎng)者說(shuō)。 而一派觀(guān)點(diǎn)認為,基于更好的多模態(tài)模型,世界模型、具身智能、空間智能等才能得到長(cháng)足發(fā)展,行業(yè)才能進(jìn)一步靠近AGI(通用人工智能)。 更現實(shí)的考量是,模型決定應用能力上限,在文本模型集中火力降本增效和緩慢提升性能的同時(shí),多模態(tài)模型的突破有望給市場(chǎng)帶來(lái)更多PMF機會(huì ),這將是創(chuàng )業(yè)者和投資人眼中更具實(shí)際價(jià)值的關(guān)鍵變化。 |