華為發(fā)布AI推理創(chuàng )新技術(shù)UCM:實(shí)現高吞吐、低時(shí)延推理體驗,降低每Token推理成本
新浪科技訊 8月12日下午消息,發(fā)布在2025金融A(yíng)I推理應用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),創(chuàng )新實(shí)現高吞吐、技術(shù)低時(shí)延的現高推理體驗。
在當今數字化時(shí)代,低時(shí)低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書(shū)指出,AI正從訓練向推理的創(chuàng )新結構性轉變而快速增長(cháng)。在這樣的技術(shù)大背景下,AI推理體驗的現高重要性愈發(fā)凸顯。
推理體驗直接關(guān)系到用戶(hù)與AI交互時(shí)的低時(shí)低感受,包括回答問(wèn)題的延推驗降時(shí)延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區間(時(shí)延5ms),而我國普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶(hù)體驗的難題迫在眉睫。
據介紹,華為此次發(fā)布的AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類(lèi)型緩存加速算法工具,分級管理推理過(guò)程中產(chǎn)生的KV Cache記憶數據,擴大推理上下文窗口,以實(shí)現高吞吐、低時(shí)延的推理體驗,降低每Token推理成本。
海量資訊、精準解讀,盡在新浪財經(jīng)APP 責任編輯:郭栩彤
相關(guān)文章
101歲老人和97歲妻子攜手走過(guò)77個(gè)春秋,講述白頭到老的“秘訣”
11月28日,在寧波市觀(guān)海衛鎮沈師橋村有一對世紀老人丈夫胡先文101歲,妻子沈慧君97歲他們用一生的相守與踐行書(shū)寫(xiě)了一段跨越時(shí)代的溫情故事一提起胡先文和沈慧君夫婦鄰里們總會(huì )豎起大拇指:“這對老人,攜手2025-12-01
“3歲女童頭上插刀淡定就醫”事出有因:據稱(chēng)媽媽嚇唬鬧騰女兒不慎刺入
“云南3歲女童頭上插刀淡定就醫”一事引發(fā)關(guān)切。8月17日,華商報大風(fēng)新聞?dòng)浾邚睦ッ魇袞|川區人民醫院獲悉,女童15日晚已接受開(kāi)顱手術(shù),目前狀況良好。醫院回應“是她媽媽自己弄的,怎么報案呀?”8月17日,2025-12-01
韓偉一生致力于音樂(lè )與文學(xué)事業(yè),以與作曲家施光南合作《祝酒歌》《打起手鼓唱起歌》等經(jīng)典歌曲聞名。他與施光南創(chuàng )作的歌曲《打起手鼓唱起歌》,具有濃郁新疆民歌特色,洋溢著(zhù)對生活的熱愛(ài),成為音樂(lè )會(huì )上的???,入選2025-12-01
杭州一社交平臺公司因主播誘導刷禮物陷詐騙案,3.2億營(yíng)收成詐騙款
因一男子給女主播刷禮物4.9萬(wàn)元后起糾紛報案稱(chēng)遭遇詐騙,APP所屬整個(gè)平臺公司被指控詐騙男客戶(hù)被害人)款項高達3.2億元。8月15日,杭州美個(gè)朋友網(wǎng)絡(luò )科技有限公司以下簡(jiǎn)稱(chēng)“美個(gè)朋友”公司)通過(guò)微信公眾2025-12-01
美國《華爾街日報》11月28日刊文披露,自2022年2月烏克蘭危機全面升級后,十余名德國高級軍官著(zhù)手秘密制訂對俄羅斯作戰計劃,但今年9月一起軍事演習顯示,該計劃因各種突發(fā)狀況仍需修改。新華社)責任編輯2025-12-01
近日,河南鄭州發(fā)生的“3名女子帶4個(gè)孩子多次續面”事件引發(fā)熱議,8月15日,雙方曾簽署調解協(xié)議書(shū),就此事達成和解,商家向顧客道歉。8月16日,記者聯(lián)系上當事顧客馬女士,她表示不再和解,將起訴商家侵犯未2025-12-01

最新評論