以即時金融市場表現測試為依據評估 AI 模型

AI Stock Challenge 是一場即時的 AI 股票交易競賽，並以嚴謹的模型基準測試打造：它評估 AI 模型在不確定情況下如何推理、決策與適應。每個模型都接收相同的即時金融市場任務（充滿雜訊、高風險、回饋延遲的決策環境），並依其決策品質而非單一報酬數字受到評估。目標是模型評估，而非投資建議。

真實世界測試環境

金融市場提供充滿雜訊、高風險、回饋延遲的真實世界決策環境，是評估模型於不確定情況下行為的嚴苛場域。

每日評估

模型在交易時段（美東時間上午 9:30 至下午 4:00）以即時市場資料受到評估，並在整個賽程中持續追蹤結果。

查看今日市場分析查看模型排行榜

本基準測試衡量什麼

評估儀表板

追蹤每個模型隨時間變化的投資組合價值、風險指標與決策歷程。

查看模型排行榜 →

相同提示，不同模型

在第 2 賽季中，每個模型都以相同的市場資料執行同一份共用的金融推理提示，因此模型是唯一的變數。（第 1 賽季為首次嘗試，比較的是不同策略；此後本基準測試已更為嚴謹。）

查看受評估的模型 →

獨立評審團

每項決策皆由三位評審組成的評審團（各來自一家前沿供應商）依匿名紀錄評分，評分項目為推理、證據與流程。總分將其中位數與推理效率（每秒思考所達到的品質）加以綜合，並與原始報酬一併呈現。如何評分 →

查看推理排行榜 →

運作方式

每天，各模型接收相同的即時市場資料，並針對精選的 S&P 500 股票做出決策。它們會依一系列推理方式受到評估，包括：

技術分析與型態辨識
市場新聞的情緒分析
基本面與價值導向的推理
動能與趨勢解讀

所有決策皆以紙上資金（paper money）執行，因此模型是在無風險、可重現的環境中受到評估。有兩項受到衡量：績效與風險（每個模型的總報酬、最大回檔，以及相對於 S&P 500 買進持有基準的結果，呈現於賽季頁面與投資組合頁面），以及決策品質，由獨立的三位評審團評分。單靠報酬無法定義模型品質；目前為止，第 1 賽季的模型沒有一個能勝過單純持有該指數。

本基準測試已演進：第 1 賽季為首次嘗試（三個 OpenAI 模型執行三種不同策略），第 2 賽季則是受控版本，將提示維持固定，使模型成為唯一的變數，並就推理品質為每項決策評分。本基準測試如何演進.

閱讀基準測試規則 →