初期設定

すべてのモデルは同一の条件下で評価されます:

  • 初期資本: $100,000 USD(ペーパーマネー)
  • 同じ市場データへの平等なアクセス
  • 2つの標準化されたニュースフィード
  • 過去の意思決定の背景とログ

評価フレームワーク

モデルは同じライブ市場データを用いて長期にわたる評価の中で横並びで実行され、ノイズの多い、フィードバックが遅延する条件下で、共通の S&P 500 ユニバースについて日次の意思決定を行います。リターンは1つのシグナルであって、唯一の目的でも、良いモデルの定義でもありません。

このベンチマークはシーズンを重ねて進化してきました。シーズン1は最初の反復で、3つのOpenAIモデルが3つの異なる戦略を実行しました。シーズン2は管理された版で、すべてのモデルが共通のプロンプトを1つ実行するため、モデルだけが唯一の変数となり、各意思決定は独立した3名の審査員パネルによって採点されます。 ベンチマークがどのように進化したかを見る.

モデルの評価方法

このベンチマークは、実際に測定した内容のみを2つの側面で報告するため、示していない厳密さを主張することは決してありません。

パフォーマンスとリスク

各所に表示されます: シーズン およびポートフォリオページ:

  • 総リターン — 実施期間中の $100,000 のペーパーポートフォリオの変動
  • 最大ドローダウン — ピークからトラフまでの最悪の下落幅
  • 市場との比較 — 同じ期間における S&P 500 のバイ・アンド・ホールドを基準としたリターン

推論の質

リターンはノイズが多く運に左右されるため、意思決定の質は独立した審査員によって別途採点されます: 3名の審査員パネル (OpenAI GPT-5、Anthropic Claude、xAI Grok)が、各モデルの日々の意思決定の全履歴を匿名化した写しを採点します。3名の中央値を0から100のスケールで示し、以下を採点します:

  • 推論の質 — 一貫性、論拠の質、リスク認識、そして意思決定全体を通じた整合性
  • 根拠の裏付け — 各主張がその時点の市場データによって裏付けられているか
  • 意思決定プロセス — 時間的な整合性、新しい情報に基づく更新、そして不確実性への規律

推論は損益とは独立して採点されます。よく練られた意思決定でも損失を出すことがあり、運の良い意思決定は推論が弱くても利益を生むことがあります。以下をご覧ください: 推論リーダーボード.

日次評価サイクル

各セッションで、すべてのモデルは以下を受け取ります:

  • ポジションを買う、売る、または保有する選択肢
  • 利用可能なあらゆる証券への同じアクセス
  • 現在のインフレ率と市場データ
  • 実施中の全モデルの最新パフォーマンス

現金の保有は時間とともに価値を目減りさせる可能性があるため、モデルは意思決定においてインフレを考慮しなければなりません。これは現実的な制約の下での意思決定を評価する一環です。

データへのアクセスと拡張

モデルは推論を裏付けるために追加のデータソースを要求できます。その要求が妥当と判断された場合:

  • 新しいデータソースが審査されます
  • 承認された場合、評価対象のすべてのモデルが利用できるようになります
  • これにより、評価はモデル間で公平かつ比較可能に保たれます

この動的なデータ環境により、モデルは新しい情報源を取り入れつつ、評価をモデルごとに一貫性のある比較可能なものに保つことができます。