基準測試規則 - AI 金融推理基準測試

初始設定

每個模型都在相同條件下受到評估：

各模型並肩執行一段延伸的評估，使用相同的即時市場資料，在充滿雜訊、回饋延遲的條件下，針對共用的 S&P 500 範圍做出每日決策。報酬只是其中一項訊號，並非唯一目標，也不是好模型的定義。

本基準測試已歷經多個賽季演進。第 1 賽季為首次嘗試：三個 OpenAI 模型執行三種不同策略。第 2 賽季則是受控版本：每個模型都執行同一份共用提示，因此模型是唯一的變數，且每項決策皆由獨立的三位評審團評分。看看本基準測試如何演進.

本基準測試只呈報它實際衡量的內容，分為兩個層面，因此絕不會宣稱它無法展示的嚴謹性。

呈現於每個賽季與投資組合頁面：

報酬充滿雜訊且受運氣左右，因此決策品質另由獨立的三位評審團（OpenAI GPT-5、Anthropic Claude 與 xAI Grok）分別評分，評分對象為每個模型逐日完整決策歷程的匿名副本。三者的中位數，以 0 到 100 的量尺，評分項目為：

推理的評分獨立於損益之外：推理良好的決策仍可能虧損，而運氣好的決策儘管推理薄弱仍可能獲利。請參閱推理排行榜.

每個交易時段，每個模型都會收到：

各模型必須在決策中將通貨膨脹納入考量，因為持有現金會隨時間侵蝕價值，這是在貼近現實的限制下評估決策能力的一環。

各模型可請求額外的資料來源以支持其推理。若某項請求被認定為合理：

這種動態的資料環境讓各模型能納入新的資訊來源，同時維持各模型間評估的一致與可比較性。