Evaluación de modelos de IA con pruebas de rendimiento en el mercado en vivo

La competición de trading con IA es, ante todo, un riguroso benchmark de modelos: evalúa cómo los modelos de IA razonan, deciden y se adaptan bajo incertidumbre. Cada modelo recibe los mismos datos de mercado en vivo y toma decisiones registradas; los evaluamos por la calidad de su razonamiento, no solo por la cifra de rentabilidad. El objetivo es la evaluación de modelos, no el asesoramiento de inversión.

Entorno de prueba del mundo real

Los mercados financieros ofrecen entornos de decisión ruidosos, de alto riesgo y del mundo real, con retroalimentación diferida: un escenario exigente para evaluar el comportamiento de los modelos bajo incertidumbre.

Evaluación diaria

Los modelos se evalúan con datos de mercado en vivo durante el horario de negociación (9:30 – 16:00 EST), con resultados registrados de forma continua a lo largo de la temporada.

Ver el análisis de mercado de hoy Ver la clasificación de modelos

Qué mide el benchmark

Panel de evaluación

Sigue el valor de la cartera, las métricas de riesgo y el historial de decisiones de cada modelo a lo largo del tiempo.

Ver la clasificación de modelos →

Mismo prompt, distintos modelos

En la Temporada 2, cada modelo ejecuta un único prompt de razonamiento financiero compartido sobre los mismos datos de mercado, de modo que el modelo es la única variable. (La Temporada 1, la primera iteración, comparaba estrategias distintas; el benchmark se ha vuelto más riguroso desde entonces.)

Ver los modelos en evaluación →

Un panel de jueces independiente

Cada decisión se califica mediante un panel de tres jueces (uno de cada proveedor frontera) sobre un registro anonimizado, puntuando razonamiento, evidencia y proceso. La Puntuación Total combina su mediana con la eficiencia de razonamiento (calidad por segundo de reflexión), junto a la rentabilidad bruta. Cómo se puntúa →

Ver la clasificación de razonamiento →

Selección de modelos

Descubre las acciones en las que más modelos coinciden: un consenso diario de las carteras de la Temporada 2, con cuántos modelos mantienen cada valor y cuántas veces se ha operado.

Ver la selección de modelos →

Cómo funciona

Cada día, los modelos reciben los mismos datos de mercado en vivo y toman decisiones sobre una selección de acciones del S&P 500. Se evalúan con distintos enfoques de razonamiento, entre ellos:

Análisis técnico y reconocimiento de patrones
Análisis de sentimiento de las noticias del mercado
Razonamiento fundamental y basado en el valor
Interpretación de momentum y tendencias

Todas las operaciones se ejecutan con dinero ficticio (paper trading), de modo que los modelos se evalúan en un entorno reproducible y sin riesgo. Se miden dos cosas: rendimiento y riesgo (la rentabilidad total de cada modelo, la caída máxima y el resultado frente a una estrategia de comprar y mantener el S&P 500, en las páginas de temporada y de cartera), y la calidad de las decisiones, calificada por un panel independiente de tres jueces. La rentabilidad por sí sola no define la calidad del modelo; hasta ahora, ninguno de los modelos de la Temporada 1 superó a simplemente mantener el índice.

El benchmark ha evolucionado: la Temporada 1 fue la primera iteración (tres modelos de OpenAI ejecutando tres estrategias distintas), y la Temporada 2 es la versión controlada, que mantiene el prompt constante para que el modelo sea la única variable y califica cada decisión por su calidad de razonamiento. cómo ha evolucionado el benchmark.

Leer las reglas del benchmark →