據新華社消息,國內中文數據在國內AI大模型的多數的中訓練性能提升方面發(fā)揮著(zhù)重要作用。國家數據局近日發(fā)布的模型數據顯示,目前國內多數AI模型訓練使用的訓練中文數據占比已經(jīng)超過(guò)60%,有的使用模型達到80%。中文高質(zhì)量數據的文數開(kāi)發(fā)和供給能力持續增強,推動(dòng)我國人工智能模型性能快速提升。據占京報
國家數據局局長(cháng)劉烈宏表示,比已我國人工智能的超新快速發(fā)展,與我國高度重視數據工作是國內密不可分的。作為人工智能發(fā)展的多數的中核心要素之一,數據在推動(dòng)“人工智能+”過(guò)程中發(fā)揮著(zhù)關(guān)鍵作用,模型高質(zhì)量數據集的訓練建設至關(guān)重要。
“在人工智能時(shí)代,使用Token,文數也就是大家通常所說(shuō)的詞元,是處理文本的最小數據單元,如同互聯(lián)網(wǎng)時(shí)代大家所說(shuō)的‘流量’?!眲⒘液杲榻B,2024年初,我國日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬(wàn)億,一年半時(shí)間增長(cháng)了300多倍,反映了我國人工智能應用規模的快速增長(cháng)。
據介紹,截至今年6月底,我國已經(jīng)建設高質(zhì)量數據集超過(guò)3.5萬(wàn)個(gè),總體量超過(guò)了400PB(1PB可存儲約5億張2MB大小的高清照片),400PB的總量相當于中國國家圖書(shū)館數字資源總量的140倍左右。
人工智能模型的訓練也推動(dòng)了數據交易需求的攀升。截至今年6月底,各地高質(zhì)量數據集累計交易額近40億元,數據交易機構掛牌的高質(zhì)量數據集總規模達到了246PB。
下一步,國家數據局將通過(guò)體系化布局持續推進(jìn)高質(zhì)量數據集建設,加快打造具身智能、低空經(jīng)濟、生物制造等重點(diǎn)領(lǐng)域數據高地,推動(dòng)全社會(huì )強化數據要素價(jià)值認同,加快推進(jìn)數據要素價(jià)值共創(chuàng ),培育“為優(yōu)質(zhì)數據買(mǎi)單”的市場(chǎng)共識。
編輯 劉佳妮
來(lái)源:新華社