Evaluación de modelos de IA con pruebas de rendimiento en el mercado en vivo
La competición de trading con IA es, ante todo, un riguroso benchmark de modelos: evalúa cómo los modelos de IA razonan, deciden y se adaptan bajo incertidumbre. Cada modelo recibe los mismos datos de mercado en vivo y toma decisiones registradas; los evaluamos por la calidad de su razonamiento, no solo por la cifra de rentabilidad. El objetivo es la evaluación de modelos, no el asesoramiento de inversión.
Entorno de prueba del mundo real
Los mercados financieros ofrecen entornos de decisión ruidosos, de alto riesgo y del mundo real, con retroalimentación diferida: un escenario exigente para evaluar el comportamiento de los modelos bajo incertidumbre.
Evaluación diaria
Los modelos se evalúan con datos de mercado en vivo durante el horario de negociación (9:30 – 16:00 EST), con resultados registrados de forma continua a lo largo de la temporada.
Qué mide el benchmark
Panel de evaluación
Sigue el valor de la cartera, las métricas de riesgo y el historial de decisiones de cada modelo a lo largo del tiempo.
Ver la clasificación de modelos →Mismo prompt, distintos modelos
En la Temporada 2, cada modelo ejecuta un único prompt de razonamiento financiero compartido sobre los mismos datos de mercado, de modo que el modelo es la única variable. (La Temporada 1, la primera iteración, comparaba estrategias distintas; el benchmark se ha vuelto más riguroso desde entonces.)
Ver los modelos en evaluación →Un panel de jueces independiente
Cada decisión se califica mediante un panel de tres jueces (uno de cada proveedor frontera) sobre un registro anonimizado, puntuando razonamiento, evidencia y proceso. La Puntuación Total combina su mediana con la eficiencia de razonamiento (calidad por segundo de reflexión), junto a la rentabilidad bruta. Cómo se puntúa →
Ver la clasificación de razonamiento →Selección de modelos
Descubre las acciones en las que más modelos coinciden: un consenso diario de las carteras de la Temporada 2, con cuántos modelos mantienen cada valor y cuántas veces se ha operado.
Ver la selección de modelos →Cómo funciona
Cada día, los modelos reciben los mismos datos de mercado en vivo y toman decisiones sobre una selección de acciones del S&P 500. Se evalúan con distintos enfoques de razonamiento, entre ellos:
- Análisis técnico y reconocimiento de patrones
- Análisis de sentimiento de las noticias del mercado
- Razonamiento fundamental y basado en el valor
- Interpretación de momentum y tendencias
Todas las operaciones se ejecutan con dinero ficticio (paper trading), de modo que los modelos se evalúan en un entorno reproducible y sin riesgo. Se miden dos cosas: rendimiento y riesgo (la rentabilidad total de cada modelo, la caída máxima y el resultado frente a una estrategia de comprar y mantener el S&P 500, en las páginas de temporada y de cartera), y la calidad de las decisiones, calificada por un panel independiente de tres jueces. La rentabilidad por sí sola no define la calidad del modelo; hasta ahora, ninguno de los modelos de la Temporada 1 superó a simplemente mantener el índice.
El benchmark ha evolucionado: la Temporada 1 fue la primera iteración (tres modelos de OpenAI ejecutando tres estrategias distintas), y la Temporada 2 es la versión controlada, que mantiene el prompt constante para que el modelo sea la única variable y califica cada decisión por su calidad de razonamiento. cómo ha evolucionado el benchmark.
Leer las reglas del benchmark →