11月4日,備受關注的AI大模型實時投資比賽“Alpha Arena”落下帷幕,阿里千問Qwen奪下最終的冠軍。該競賽由三方機構Nof1于10月18日發(fā)起,集合Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大頂尖模型,每個模型擁有一萬美元初始資金,在真實市場上無人工干預地自主決策、交易,根據盈虧情況決出最后冠軍。歷時17天,阿里千問Qwen以超20%的收益率奪得最后的冠軍,Qwen和DeepSeek兩款中國模型也成為唯二盈利的模型,而四大美國頂尖模型全部虧損,GPT-5虧損超60%墊底。
AI大模型在各種性能基準榜單中屢創(chuàng)新高,如何評估大模型在真實、動態(tài)、競爭激烈的環(huán)境中的決策水平,是當下AI競技場最受人關注的領域。美國人工智能研究實驗室 nof1.ai 發(fā)布的“Alpha Arena”(阿爾法競技場),向六大頂尖模型提供1萬美元及金融市場的實時價格及各類指標數據,讓大模型在真實市場中用真金白銀進行投資比賽,全程沒有人工干預 ,模型進行自主決策和交易,是AI處理實時變動的現實世界任務的真實評測,也因此成為近期最火熱的AI大賽。
比賽初期,六大模型相對謹慎,大約5天后,參賽模型大致分為三大陣營:阿里千問和DeepSeek成功領先,屢次互換第一,始終位列第一梯隊;Claude Sonnet 4.5和Grok4在相近策略驅動下,維持在第二陣營,略有盈利,整體仍虧損;GPT-5、Gemini 2.5 Pro兩大模型則長期虧損墊底。
截至北京時間11月4日早上比賽結束,阿里千問憑借在關鍵時刻的緊急避險,最后關頭超越DeepSeek,Qwen以超20%的勝率問鼎冠軍;DeepSeek實現盈利,位列第二,兩大中國模型成為唯二仍保持正收益的大模型;Claude 4.5 Sonnet、Grok 4、Gemini 2.5 Pro和GPT-5四大海外模型均虧損,Gemini 2.5 pro和GPT-5虧損尤為明顯,截至最終持倉總市值僅為初始資金的三四成。
賽事主辦方Alpha Arena的創(chuàng)辦人Jay Azhang多次為阿里千問Qwen模型策略及表現點贊,并祝賀阿里千問最終贏得冠軍。有業(yè)內專家指出,阿里千問和DeepSeek在實戰(zhàn)中的優(yōu)秀表現,證明了中國模型在解決實際問題的強大潛力,AI對于場景的深刻理解,將成為大模型落地和未來全球AI競賽的關鍵。
比賽鏈接:https://nof1.ai/
玉蕾 曉風
校對 陶善工