您現在的位置是:綜合 >>正文
華為發(fā)布AI推理創(chuàng )新技術(shù)UCM:實(shí)現高吞吐、低時(shí)延推理體驗,降低每Token推理成本
綜合7人已圍觀(guān)
簡(jiǎn)介新浪科技訊 8月12日下午消息,在2025金融A(yíng)I推理應用落地與發(fā)展論壇上,華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng )新技術(shù)UCM推理記憶數據管理器),實(shí)現高吞吐、低時(shí)延的推理體驗。在當今數字化時(shí)代,AI發(fā)展 ...
新浪科技訊 8月12日下午消息,發(fā)布在2025金融A(yíng)I推理應用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),創(chuàng )新實(shí)現高吞吐、技術(shù)低時(shí)延的現高推理體驗。
在當今數字化時(shí)代,低時(shí)低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書(shū)指出,AI正從訓練向推理的創(chuàng )新結構性轉變而快速增長(cháng)。在這樣的技術(shù)大背景下,AI推理體驗的現高重要性愈發(fā)凸顯。
推理體驗直接關(guān)系到用戶(hù)與AI交互時(shí)的低時(shí)低感受,包括回答問(wèn)題的延推驗降時(shí)延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區間(時(shí)延5ms),而我國普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶(hù)體驗的難題迫在眉睫。
據介紹,華為此次發(fā)布的AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類(lèi)型緩存加速算法工具,分級管理推理過(guò)程中產(chǎn)生的KV Cache記憶數據,擴大推理上下文窗口,以實(shí)現高吞吐、低時(shí)延的推理體驗,降低每Token推理成本。
海量資訊、精準解讀,盡在新浪財經(jīng)APP 責任編輯:郭栩彤
Tags:
轉載:歡迎各位朋友分享到網(wǎng)絡(luò ),但轉載請說(shuō)明文章出處“素昧平生網(wǎng)”。http://www.jnyxfs.com/news/88e0799904.html
相關(guān)文章
中國對高市早有警戒?石破茂:我不知道,你去問(wèn)問(wèn)
綜合近期,上任不久的日本首相高市早苗在國會(huì )答辯時(shí)公然發(fā)表涉臺露骨挑釁言論,粗暴干涉中國內政,且拒不撤回錯誤言論,引發(fā)中日關(guān)系持續緊張。日本前首相石破茂已多次公開(kāi)批評高市的錯誤言論。近日,在一檔電視節目上, ...
【綜合】
閱讀更多印度安得拉邦一寺廟發(fā)生踩踏事故 已致9人死亡
綜合據總臺記者消息,當地時(shí)間11月1日,印度東南部安得拉邦一寺廟發(fā)生踩踏事故,目前已造成9人死亡??偱_記者 張玥)責任編輯:過(guò)博文 ...
【綜合】
閱讀更多全國政協(xié)常委會(huì ):為紀念孫中山誕辰160周年,屆時(shí)將舉行隆重活動(dòng)
綜合新華社北京11月1日電關(guān)于舉辦紀念孫中山先生誕辰160周年活動(dòng)的決定2025年11月1日政協(xié)第十四屆全國委員會(huì )常務(wù)委員會(huì )第十四次會(huì )議通過(guò))2026年11月12日是偉大的民族英雄、偉大的愛(ài)國主義者、中國 ...
【綜合】
閱讀更多