久肏视频在线观看,中文字幕99色,亚洲资源在线观看无毒,99热这里全都是精品,操少妇在线,人妻av在线一区,久草AV免费看,国产日韩一区二区在线,国产有码最新视频

首頁 > 新聞中心 > 財匯

阿里云AI基礎設施成果入選頂級學術會議,顯著提升GPU利用率

來源: 紫牛新聞

2025-10-16 16:18:00

10月16日消息,頂級學術會議SOSP 2025在韓國首爾舉行,本屆會議僅收錄66篇論文,其中阿里云提出的GPU 池化服務多模型研究成果成功入選,該研究提出多模型混合服務系統(tǒng)Aegaeon,可大幅提升GPU資源利用率,目前其核心技術已應用在阿里云百煉平臺。

SOSP(操作系統(tǒng)原理研討會)由ACM SIGOPS主辦,是計算機系統(tǒng)領域頂級學術會議,平均每年收錄的論文數(shù)量僅有數(shù)十篇,被譽為計算機操作系統(tǒng)界的“奧斯卡”,入選論文代表了操作系統(tǒng)和軟件領域最具代表的研究成果。本屆SOSP大會,關于系統(tǒng)軟件與AI大模型技術的融合研究成為新的趨勢。

全球模型的數(shù)量仍在持續(xù)增長,據(jù)統(tǒng)計,Hugging Face已托管了超100萬個模型。在真實服務場景中,少量熱門模型占據(jù)了總請求的絕大部分,而超過90%的模型則調用頻率較低。當前的事實標準解決方案是為每個模型至少預留一個推理實例,這造成了GPU資源的大量浪費。

阿里云百煉團隊在論文中創(chuàng)新性提出多模型混合服務系統(tǒng)Aegaeon,首次將調度實現(xiàn)在token級別,在每次生成完下一個token之后,都可通過精確的執(zhí)行時間預測和創(chuàng)新的token級調度算法規(guī)劃是否需要切換模型,從而實現(xiàn)多個模型混合服務且滿足延遲要求;通過組件復用、顯存精細化管理和KV緩存同步優(yōu)化等全棧技術,Aegaeon將模型切換開銷降低97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。據(jù)介紹,Aegaeon系統(tǒng)支持單GPU同時服務多達7個不同模型,相比現(xiàn)有主流方案提升1.5-9倍的有效吞吐量,實現(xiàn)2-2.5倍的請求處理能力。

目前,Aegaeon核心技術已在阿里云百煉平臺部署,服務數(shù)十個模型的推理,將服務這些模型所需的GPU數(shù)量減少了82%。

據(jù)介紹,阿里云百煉平臺已上線Qwen、Wan、DeepSeek等200多款業(yè)界領先的模型,過去一年,阿里云百煉平臺的模型調用量增長了15倍。

校對 胡妍璐

东台市| 潮安县| 洛宁县| 治县。| 普定县| 彭州市| 铜鼓县| 汕尾市| 崇阳县| 宁武县| 天峨县| 枣阳市| 天峻县| 左权县| 江门市| 安西县| 徐州市| 会昌县| 翁牛特旗| 昆明市| 滁州市| 兴文县| 城步| 读书| 宣武区| 新竹市| 同江市| 上高县| 阿城市| 句容市| 汾西县| 会东县| 石首市| 哈尔滨市| 溆浦县| 牡丹江市| 民和| 亚东县| 青神县| 岢岚县| 万载县|