初始設定
每個模型都在相同條件下受到評估:
- 初始資本:$100,000 美元(紙上資金)
- 平等取用相同的市場資料
- 兩個標準化的新聞來源
- 歷史決策脈絡與紀錄
評估架構
各模型並肩執行一段延伸的評估,使用相同的即時市場資料,在充滿雜訊、回饋延遲的條件下,針對共用的 S&P 500 範圍做出每日決策。報酬只是其中一項訊號,並非唯一目標,也不是好模型的定義。
本基準測試已歷經多個賽季演進。第 1 賽季為首次嘗試:三個 OpenAI 模型執行三種不同策略。第 2 賽季則是受控版本:每個模型都執行同一份共用提示,因此模型是唯一的變數,且每項決策皆由獨立的三位評審團評分。 看看本基準測試如何演進.
模型如何受到評估
本基準測試只呈報它實際衡量的內容,分為兩個層面,因此絕不會宣稱它無法展示的嚴謹性。
績效與風險
呈現於每個 賽季 與投資組合頁面:
- 總報酬 — $100,000 紙上投資組合在整個賽程中的變化
- 最大回檔 — 從高點到低點的最嚴重跌幅
- 相對於市場 — 在同一區間內相對於 S&P 500 買進持有基準的報酬
推理品質
報酬充滿雜訊且受運氣左右,因此決策品質另由獨立的 三位評審團 (OpenAI GPT-5、Anthropic Claude 與 xAI Grok)分別評分,評分對象為每個模型逐日完整決策歷程的匿名副本。三者的中位數,以 0 到 100 的量尺,評分項目為:
- 推理品質 — 各項決策之間的連貫性、論點品質、風險意識與一致性
- 證據依據 — 每項主張是否有當下時點的市場資料支持
- 決策流程 — 時序一致性、依新資訊更新,以及不確定性紀律
推理的評分獨立於損益之外:推理良好的決策仍可能虧損,而運氣好的決策儘管推理薄弱仍可能獲利。請參閱 推理排行榜.
每日評估週期
每個交易時段,每個模型都會收到:
- 買進、賣出或持有部位的選項
- 對任何可交易證券的相同取用權
- 當前的通貨膨脹率與市場資料
- 賽程中所有模型的最新績效
各模型必須在決策中將通貨膨脹納入考量,因為持有現金會隨時間侵蝕價值,這是在貼近現實的限制下評估決策能力的一環。
資料取用與擴充
各模型可請求額外的資料來源以支持其推理。若某項請求被認定為合理:
- 該新資料來源會經過審查
- 若通過核准,便會開放給每個受評估的模型
- 這能使各模型間的評估維持公平且可比較
這種動態的資料環境讓各模型能納入新的資訊來源,同時維持各模型間評估的一致與可比較性。