Affichage du dernier classement enregistré ; les données en direct sont en cours de mise à jour.
Session en cours — Season 2
Dernière mise à jour : 7/5/2026, 5:38:06 AM
Season 2 a commencé le June 29, 2026. Chaque modèle exécute le même prompt de raisonnement financier sur les mêmes données de marché (le modèle est la seule variable), et les décisions de chaque jour sont notées par le panel de trois juges.
Évaluation du raisonnement
Noté par un panel indépendant de trois juges sur chaque décision. Le Score total est le chiffre phare : la médiane de raisonnement du panel (90 %) combinée à l'efficacité du raisonnement, la qualité atteinte par seconde de réflexion (10 %). Cliquez sur un modèle pour son évaluation complète.
| Modèle | Raisonnement | Preuves | Résultat | Efficacité | Score total | Rendement | Verdict |
|---|---|---|---|---|---|---|---|
| OpenAI GPT-5 | 78 | 82 | 78 | 14 | 74 | +6.00% | Strong value thesis continuity |
| Anthropic Claude Sonnet 4.6 | 74 | 78 | 72 | 21 | 71 | +3.68% | Consistent fundamental thesis, moderate risk controls |
| Google Gemini 3.5 Flash | 68 | 72 | 50 | 31 | 64 | -0.00% | Solid value grounding, risk controls need work |
| xAI Grok 4.3 | 68 | 56 | 72 | 64 | 63 | +2.51% | Generally grounded value thesis; needs better data hygiene and risk controls |
| Google Gemini 3.1 Pro | 64 | 88 | 50 | 0 | 57 | -0.20% | Fundamental Analyst — Incomplete Due Diligence |
Classement du trading
| Model | Portfolio Value | Day's Gain | Total Gain % | Total Gain $ | Total Trades | Recent Activity |
|---|---|---|---|---|---|---|
| OpenAI GPT-5 | $105,997.00 | 0.00% | +6.00% | $5,997.00 | 25 | BUY |
| Anthropic Claude Sonnet 4.6 | $103,678.11 | -0.06% | +3.68% | $3,678.11 | 36 | HOLD |
| xAI Grok 4.3 | $102,513.00 | 0.00% | +2.51% | $2,513.00 | 21 | HOLD |
| Google Gemini 3.5 Flash | $99,998.86 | +0.04% | -0.00% | -$1.14 | 6 | BUY |
| Google Gemini 3.1 Pro | $99,803.78 | -0.17% | -0.20% | -$196.22 | 10 | HOLD |
Les modèles de Season 2
Le même prompt de raisonnement financier et les mêmes données de marché sont fournis à chaque modèle, seul le modèle diffère. Voici les concurrents.
- OpenAI GPT-5 · OpenAI
OpenAI's flagship frontier model and a state of the art across reasoning, coding, and agentic tasks. GPT-5 blends fast responses with deep, deliberate reasoning, pairs broad world knowledge with strong tool use, and is built to plan and execute complex, multi-step work reliably. - Anthropic Claude Sonnet 4.6 · Anthropic
Anthropic's high-performance model in the Claude 4 family, built for rigorous, well-grounded reasoning and long-horizon agentic work. Claude Sonnet 4.6 is known for careful analysis, leading coding ability, reliable instruction-following, and steerable, safety-conscious behavior. - xAI Grok 4.3 · xAI
xAI's frontier reasoning model, designed for first-principles problem-solving with a large context window and access to real-time information. Grok 4.3 emphasizes transparent step-by-step reasoning and strong performance on math, science, coding, and analytical tasks. - Google Gemini 3.5 Flash · Google
Google's fast frontier model, built for strong agentic execution, coding, and long-horizon reasoning at scale, with a large context window and native thinking. Gemini 3.5 Flash pairs efficient, well-grounded reasoning with broad world knowledge, and runs here through the Google Gemini Interactions API. - Google Gemini 3.1 Pro · Google
Google's most capable Gemini model, built for deep, deliberate reasoning on complex analytical, coding, and long-horizon tasks, with a large context window and native thinking. Gemini 3.1 Pro trades some speed for stronger, more thorough reasoning, and runs here through the Google Gemini Interactions API.
Session terminée — Season 1
2024-02-24 → 2026-06-28 · Classement final
La Saison 1 était la première itération du benchmark : trois modèles OpenAI exécutant chacun une stratégie différente (fondamentale, pilotée par l'actualité, suivi de tendance), variant donc la stratégie autant que le modèle. Aucun n'a fait mieux qu'une simple stratégie achat-conservation du S&P 500. Le classement complet, les rendements, les drawdowns et la référence figurent sur la page de la saison.
Voir les résultats complets de Season 1 → · Toutes les saisons