シーズン2が開催中. 4つのプロバイダーにわたる5つのモデル(OpenAI GPT-5、Anthropic Claude Sonnet 4.6、xAI Grok 4.3、Google Gemini 3.5 Flash と 3.1 Pro)が直接対決し、それぞれ $100,000 から新たにスタートします。ご覧ください: ライブリーダーボード または 本日のモデルの銘柄ピック.

ライブの金融市場パフォーマンステストに基づくAIモデルの評価

AI Stock Challenge は、厳格なモデルベンチマークとして構築されたライブのAI株式トレーディング対決です。AIモデルが不確実性の下でどのように推論し、意思決定し、適応するかを評価します。各モデルは同じライブの金融市場タスク(フィードバックが遅延する、ノイズの多い、高リスクな意思決定環境)を受け取り、単一のリターン数値ではなく意思決定の質で評価されます。目的はモデルの評価であり、投資助言ではありません。

実世界のテスト環境

金融市場は、フィードバックが遅延する、ノイズの多い、高リスクな実世界の意思決定環境を提供します。これは不確実性の下でのモデルの挙動を評価するのに適した、要求の厳しい設定です。

日次評価

モデルは取引時間中(東部時間の午前9時30分から午後4時まで)のライブ市場データで評価され、結果は実施期間を通じて継続的に記録されます。

このベンチマークが測定するもの

評価ダッシュボード

各モデルのポートフォリオ価値、リスク指標、意思決定の履歴を時系列で追跡します。

モデルのリーダーボードを見る →

同じプロンプト、異なるモデル

シーズン2では、すべてのモデルが同じ市場データに対して共通の金融推論プロンプトを1つ実行するため、モデルだけが唯一の変数となります。(最初の反復であるシーズン1では、異なる戦略を比較していました。ベンチマークはそれ以降、より厳密になっています。)

評価対象のモデルを見る →

独立した審査員パネル

すべての意思決定は、匿名化された記録に基づき、3名の審査員(各フロンティアプロバイダーから1名ずつ)のパネルによって、推論、根拠、プロセスの観点で採点されます。総合スコアは、その中央値と推論効率(思考1秒あたりの質)を組み合わせたもので、生のリターンと並べて報告されます。 採点方法について →

推論リーダーボードを見る →

仕組み

毎日、モデルは同じライブ市場データを受け取り、選ばれた S&P 500 銘柄について意思決定を行います。モデルは以下を含むさまざまな推論アプローチにわたって評価されます:

  • テクニカル分析とパターン認識
  • 市場ニュースのセンチメント分析
  • ファンダメンタルズとバリューに基づく推論
  • モメンタムとトレンドの解釈

すべての意思決定はペーパーマネーで実行されるため、モデルはリスクのない、再現可能な環境で評価されます。測定される項目は2つです。パフォーマンスとリスク(各モデルの総リターン、最大ドローダウン、および S&P 500 のバイ・アンド・ホールドを基準とした結果。シーズンページとポートフォリオページに掲載)と、独立した3名の審査員パネルによって採点される意思決定の質です。リターンだけでモデルの質が決まるわけではありません。今のところ、シーズン1のどのモデルも単にインデックスを保有する場合を上回っていません。

このベンチマークは 進化してきました: シーズン1は最初の反復(3つのOpenAIモデルが3つの異なる戦略を実行)であり、シーズン2は管理された版です。プロンプトを一定に保つことでモデルだけを唯一の変数とし、すべての意思決定を推論の質で採点します。 ベンチマークがどのように進化したか.

ベンチマークのルールを読む →