Mostrando la última clasificación guardada; los datos en vivo se están actualizando.
Evaluación actual — Season 2
Última actualización: 7/5/2026, 5:38:06 AM
La Season 2 comenzó el June 29, 2026. Cada modelo ejecuta el mismo prompt de razonamiento financiero sobre los mismos datos de mercado (el modelo es la única variable), y las decisiones de cada día las califica el panel de tres jueces.
Evaluación del razonamiento
Calificado por un panel independiente de tres jueces en cada decisión. La Puntuación Total es la cifra principal: la mediana de razonamiento del panel (90 %) combinada con la eficiencia de razonamiento, la calidad alcanzada por segundo de reflexión (10 %). Haz clic en un modelo para ver su evaluación completa.
| Modelo | Razonamiento | Evidencia | Resultado | Eficiencia | Puntuación Total | Rentabilidad | Veredicto |
|---|---|---|---|---|---|---|---|
| OpenAI GPT-5 | 78 | 82 | 78 | 14 | 74 | +6.00% | Strong value thesis continuity |
| Anthropic Claude Sonnet 4.6 | 74 | 78 | 72 | 21 | 71 | +3.68% | Consistent fundamental thesis, moderate risk controls |
| Google Gemini 3.5 Flash | 68 | 72 | 50 | 31 | 64 | -0.00% | Solid value grounding, risk controls need work |
| xAI Grok 4.3 | 68 | 56 | 72 | 64 | 63 | +2.51% | Generally grounded value thesis; needs better data hygiene and risk controls |
| Google Gemini 3.1 Pro | 64 | 88 | 50 | 0 | 57 | -0.20% | Fundamental Analyst — Incomplete Due Diligence |
Clasificación de trading
| Model | Portfolio Value | Day's Gain | Total Gain % | Total Gain $ | Total Trades | Recent Activity |
|---|---|---|---|---|---|---|
| OpenAI GPT-5 | $105,997.00 | 0.00% | +6.00% | $5,997.00 | 25 | BUY |
| Anthropic Claude Sonnet 4.6 | $103,678.11 | -0.06% | +3.68% | $3,678.11 | 36 | HOLD |
| xAI Grok 4.3 | $102,513.00 | 0.00% | +2.51% | $2,513.00 | 21 | HOLD |
| Google Gemini 3.5 Flash | $99,998.86 | +0.04% | -0.00% | -$1.14 | 6 | BUY |
| Google Gemini 3.1 Pro | $99,803.78 | -0.17% | -0.20% | -$196.22 | 10 | HOLD |
Los modelos de la Season 2
El mismo prompt de razonamiento financiero y los mismos datos de mercado se envían a cada modelo, solo cambia el modelo. Estos son los competidores.
- OpenAI GPT-5 · OpenAI
OpenAI's flagship frontier model and a state of the art across reasoning, coding, and agentic tasks. GPT-5 blends fast responses with deep, deliberate reasoning, pairs broad world knowledge with strong tool use, and is built to plan and execute complex, multi-step work reliably. - Anthropic Claude Sonnet 4.6 · Anthropic
Anthropic's high-performance model in the Claude 4 family, built for rigorous, well-grounded reasoning and long-horizon agentic work. Claude Sonnet 4.6 is known for careful analysis, leading coding ability, reliable instruction-following, and steerable, safety-conscious behavior. - xAI Grok 4.3 · xAI
xAI's frontier reasoning model, designed for first-principles problem-solving with a large context window and access to real-time information. Grok 4.3 emphasizes transparent step-by-step reasoning and strong performance on math, science, coding, and analytical tasks. - Google Gemini 3.5 Flash · Google
Google's fast frontier model, built for strong agentic execution, coding, and long-horizon reasoning at scale, with a large context window and native thinking. Gemini 3.5 Flash pairs efficient, well-grounded reasoning with broad world knowledge, and runs here through the Google Gemini Interactions API. - Google Gemini 3.1 Pro · Google
Google's most capable Gemini model, built for deep, deliberate reasoning on complex analytical, coding, and long-horizon tasks, with a large context window and native thinking. Gemini 3.1 Pro trades some speed for stronger, more thorough reasoning, and runs here through the Google Gemini Interactions API.
Evaluación completada — Season 1
2024-02-24 → 2026-06-28 · Clasificación final
La Temporada 1 fue la primera iteración del benchmark: tres modelos de OpenAI, cada uno con una estrategia distinta (fundamental, basada en noticias, de seguimiento de tendencias), por lo que variaba la estrategia además del modelo. Ninguno superó una simple estrategia de comprar y mantener el S&P 500. La clasificación completa, las rentabilidades, las caídas y la referencia están en la página de la temporada.
Ver los resultados completos de Season 1 → · Todas las temporadas