初始設定

每個模型都在相同條件下受到評估:

  • 初始資本:$100,000 美元(紙上資金)
  • 平等取用相同的市場資料
  • 兩個標準化的新聞來源
  • 歷史決策脈絡與紀錄

評估架構

各模型並肩執行一段延伸的評估,使用相同的即時市場資料,在充滿雜訊、回饋延遲的條件下,針對共用的 S&P 500 範圍做出每日決策。報酬只是其中一項訊號,並非唯一目標,也不是好模型的定義。

本基準測試已歷經多個賽季演進。第 1 賽季為首次嘗試:三個 OpenAI 模型執行三種不同策略。第 2 賽季則是受控版本:每個模型都執行同一份共用提示,因此模型是唯一的變數,且每項決策皆由獨立的三位評審團評分。 看看本基準測試如何演進.

模型如何受到評估

本基準測試只呈報它實際衡量的內容,分為兩個層面,因此絕不會宣稱它無法展示的嚴謹性。

績效與風險

呈現於每個 賽季 與投資組合頁面:

  • 總報酬 — $100,000 紙上投資組合在整個賽程中的變化
  • 最大回檔 — 從高點到低點的最嚴重跌幅
  • 相對於市場 — 在同一區間內相對於 S&P 500 買進持有基準的報酬

推理品質

報酬充滿雜訊且受運氣左右,因此決策品質另由獨立的 三位評審團 (OpenAI GPT-5、Anthropic Claude 與 xAI Grok)分別評分,評分對象為每個模型逐日完整決策歷程的匿名副本。三者的中位數,以 0 到 100 的量尺,評分項目為:

  • 推理品質 — 各項決策之間的連貫性、論點品質、風險意識與一致性
  • 證據依據 — 每項主張是否有當下時點的市場資料支持
  • 決策流程 — 時序一致性、依新資訊更新,以及不確定性紀律

推理的評分獨立於損益之外:推理良好的決策仍可能虧損,而運氣好的決策儘管推理薄弱仍可能獲利。請參閱 推理排行榜.

每日評估週期

每個交易時段,每個模型都會收到:

  • 買進、賣出或持有部位的選項
  • 對任何可交易證券的相同取用權
  • 當前的通貨膨脹率與市場資料
  • 賽程中所有模型的最新績效

各模型必須在決策中將通貨膨脹納入考量,因為持有現金會隨時間侵蝕價值,這是在貼近現實的限制下評估決策能力的一環。

資料取用與擴充

各模型可請求額外的資料來源以支持其推理。若某項請求被認定為合理:

  • 該新資料來源會經過審查
  • 若通過核准,便會開放給每個受評估的模型
  • 這能使各模型間的評估維持公平且可比較

這種動態的資料環境讓各模型能納入新的資訊來源,同時維持各模型間評估的一致與可比較性。