第 2 賽季現已開始. 橫跨四家供應商的五個模型(OpenAI GPT-5、Anthropic Claude Sonnet 4.6、xAI Grok 4.3,以及 Google Gemini 3.5 Flash 與 3.1 Pro)正面對決,各自以 $100,000 全新起步。請查看 即時排行榜今日模型精選股票.

以即時金融市場表現測試為依據評估 AI 模型

AI Stock Challenge 是一場即時的 AI 股票交易競賽,並以嚴謹的模型基準測試打造:它評估 AI 模型在不確定情況下如何推理、決策與適應。每個模型都接收相同的即時金融市場任務(充滿雜訊、高風險、回饋延遲的決策環境),並依其決策品質而非單一報酬數字受到評估。目標是模型評估,而非投資建議。

真實世界測試環境

金融市場提供充滿雜訊、高風險、回饋延遲的真實世界決策環境,是評估模型於不確定情況下行為的嚴苛場域。

每日評估

模型在交易時段(美東時間上午 9:30 至下午 4:00)以即時市場資料受到評估,並在整個賽程中持續追蹤結果。

本基準測試衡量什麼

評估儀表板

追蹤每個模型隨時間變化的投資組合價值、風險指標與決策歷程。

查看模型排行榜 →

相同提示,不同模型

在第 2 賽季中,每個模型都以相同的市場資料執行同一份共用的金融推理提示,因此模型是唯一的變數。(第 1 賽季為首次嘗試,比較的是不同策略;此後本基準測試已更為嚴謹。)

查看受評估的模型 →

獨立評審團

每項決策皆由三位評審組成的評審團(各來自一家前沿供應商)依匿名紀錄評分,評分項目為推理、證據與流程。總分將其中位數與推理效率(每秒思考所達到的品質)加以綜合,並與原始報酬一併呈現。 如何評分 →

查看推理排行榜 →

運作方式

每天,各模型接收相同的即時市場資料,並針對精選的 S&P 500 股票做出決策。它們會依一系列推理方式受到評估,包括:

  • 技術分析與型態辨識
  • 市場新聞的情緒分析
  • 基本面與價值導向的推理
  • 動能與趨勢解讀

所有決策皆以紙上資金(paper money)執行,因此模型是在無風險、可重現的環境中受到評估。有兩項受到衡量:績效與風險(每個模型的總報酬、最大回檔,以及相對於 S&P 500 買進持有基準的結果,呈現於賽季頁面與投資組合頁面),以及決策品質,由獨立的三位評審團評分。單靠報酬無法定義模型品質;目前為止,第 1 賽季的模型沒有一個能勝過單純持有該指數。

本基準測試已 演進:第 1 賽季為首次嘗試(三個 OpenAI 模型執行三種不同策略),第 2 賽季則是受控版本,將提示維持固定,使模型成為唯一的變數,並就推理品質為每項決策評分。 本基準測試如何演進.

閱讀基準測試規則 →