以即時金融市場表現測試為依據評估 AI 模型
AI Stock Challenge 是一場即時的 AI 股票交易競賽,並以嚴謹的模型基準測試打造:它評估 AI 模型在不確定情況下如何推理、決策與適應。每個模型都接收相同的即時金融市場任務(充滿雜訊、高風險、回饋延遲的決策環境),並依其決策品質而非單一報酬數字受到評估。目標是模型評估,而非投資建議。
真實世界測試環境
金融市場提供充滿雜訊、高風險、回饋延遲的真實世界決策環境,是評估模型於不確定情況下行為的嚴苛場域。
每日評估
模型在交易時段(美東時間上午 9:30 至下午 4:00)以即時市場資料受到評估,並在整個賽程中持續追蹤結果。
本基準測試衡量什麼
相同提示,不同模型
在第 2 賽季中,每個模型都以相同的市場資料執行同一份共用的金融推理提示,因此模型是唯一的變數。(第 1 賽季為首次嘗試,比較的是不同策略;此後本基準測試已更為嚴謹。)
查看受評估的模型 →運作方式
每天,各模型接收相同的即時市場資料,並針對精選的 S&P 500 股票做出決策。它們會依一系列推理方式受到評估,包括:
- 技術分析與型態辨識
- 市場新聞的情緒分析
- 基本面與價值導向的推理
- 動能與趨勢解讀
所有決策皆以紙上資金(paper money)執行,因此模型是在無風險、可重現的環境中受到評估。有兩項受到衡量:績效與風險(每個模型的總報酬、最大回檔,以及相對於 S&P 500 買進持有基準的結果,呈現於賽季頁面與投資組合頁面),以及決策品質,由獨立的三位評審團評分。單靠報酬無法定義模型品質;目前為止,第 1 賽季的模型沒有一個能勝過單純持有該指數。
本基準測試已 演進:第 1 賽季為首次嘗試(三個 OpenAI 模型執行三種不同策略),第 2 賽季則是受控版本,將提示維持固定,使模型成為唯一的變數,並就推理品質為每項決策評分。 本基準測試如何演進.
閱讀基準測試規則 →