1月22日,百度發(fā)布并上線原生全模態(tài)大模型文心5.0正式版。該模型參數達2.4萬億,采用原生全模態(tài)統(tǒng)一建模技術,具備全模態(tài)理解與生成能力,支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。目前,個人用戶可在文心APP、文心一言官網體驗,企業(yè)與開發(fā)者可通過百度千帆平臺進行調用。
在40余項權威基準的綜合評測中,文心 5.0 正式版的語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等模型,穩(wěn)居國際第一梯隊。圖像與視頻生成能力與垂直領域專精模型相當,整體處于全球領先水平。
百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜介紹,與業(yè)界多數采用“后期融合”的多模態(tài)方案不同,文心5.0的技術路線采用統(tǒng)一的自回歸架構進行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數據在同一模型框架中進行聯合訓練,使得多模態(tài)特征在統(tǒng)一架構下充分融合并協(xié)同優(yōu)化,實現原生的全模態(tài)統(tǒng)一理解與生成。
此外,文心5.0采用超大規(guī)?;旌蠈<医Y構,具備超稀疏激活參數,激活參數比低于 3%,在保持模型強大能力的同時,有效提升推理效率。同時,基于大規(guī)模工具環(huán)境,合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了模型的智能體和工具調用能力。
得益于原生全模態(tài)建模,文心5.0在多模理解、代碼、創(chuàng)意寫作等能力上實現顯著突破。大會現場,僅輸入一段博主復刻“活了么”App教程視頻,文心5.0便能自動拆解步驟,理解核心交互邏輯,并直接生成可運行的前端代碼。在創(chuàng)意寫作任務中,還能模擬《紅樓夢》中王熙鳳的語言風格,生成融合古典語境與現代商業(yè)邏輯的“大觀園資產重組方案”,展現出較強的情境理解與創(chuàng)作能力。
吳甜現場介紹了“文心導師”計劃的最新進展。文心導師隊伍持續(xù)壯大,目前已吸納835位來自科技、金融、文化、教育、醫(yī)療、能源等十余個重點行業(yè)以及數理化生文史哲等學科的專家,在知識傳授、鑒賞評價、專業(yè)校準方面對大模型進行指導,幫助模型在邏輯嚴謹性、專業(yè)深度、創(chuàng)意質量和價值觀對齊等方面不斷精進。
有分析認為,文心5.0正式版的上線,意味著原生全模態(tài)技術路線逐漸走向成熟與實用,體現了中國模型廠商在多模態(tài)大模型底層自主創(chuàng)新能力,有助于進一提升中國AI在全球AI產業(yè)競爭中的技術話語權。
據了解,2025年11月,百度發(fā)布文心大模型5.0并上線Preview版本。此后,文心5.0系列模型多次登上LMArena全球大模型競技場,多次位居文本榜和視覺理解榜國內第一,躋身國際第一梯隊。1月15日,文心5.0以1460分位列LMArena文本榜國內第一、全球第八,超過GPT-5.1-High、Gemini-2.5-Pro等多款國內外主流模型。
一萍 曉風