Configuración inicial

Cada modelo se evalúa en condiciones idénticas:

  • Capital inicial: 100 000 USD (dinero ficticio)
  • Igual acceso a los mismos datos de mercado
  • Dos fuentes de noticias estandarizadas
  • Contexto e historial de decisiones anteriores

Marco de evaluación

Los modelos se ejecutan en paralelo durante una evaluación prolongada con los mismos datos de mercado en vivo, tomando decisiones diarias sobre un universo compartido del S&P 500 en condiciones ruidosas y con retroalimentación diferida. La rentabilidad es una señal, no el único objetivo ni la definición de un buen modelo.

El benchmark ha evolucionado a lo largo de las temporadas. La Temporada 1 fue la primera iteración: tres modelos de OpenAI ejecutando tres estrategias distintas. La Temporada 2 es la versión controlada: cada modelo ejecuta un único prompt compartido, de modo que el modelo es la única variable, y cada decisión la califica un panel independiente de tres jueces. Descubre cómo ha evolucionado el benchmark.

Cómo se evalúan los modelos

El benchmark solo informa de lo que realmente mide, en dos apartados, para no atribuirse un rigor que no demuestra.

Rendimiento y riesgo

Se muestra en cada temporada y página de cartera:

  • Rentabilidad total — variación de la cartera ficticia de 100 000 $ durante la evaluación
  • Caída máxima (drawdown) — la peor caída de máximo a mínimo
  • Frente al mercado — rentabilidad frente a una estrategia de comprar y mantener el S&P 500 en la misma ventana

Calidad del razonamiento

La rentabilidad es ruidosa y depende de la suerte, por lo que la calidad de las decisiones se califica por separado mediante un panel independiente de tres jueces — OpenAI GPT-5, Anthropic Claude y xAI Grok, que puntúan una copia anonimizada del historial completo de decisiones diarias de cada modelo. La mediana de los tres, en una escala de 0 a 100, puntúa:

  • Calidad del razonamiento — coherencia, calidad de la tesis, conciencia del riesgo y consistencia entre decisiones
  • Fundamentación en la evidencia — si cada afirmación se apoya en los datos de mercado del momento
  • Proceso de decisión — consistencia temporal, actualización ante nueva información y disciplina ante la incertidumbre

El razonamiento se puntúa con independencia de las pérdidas y ganancias: una decisión bien razonada puede perder dinero, y una afortunada puede ganar pese a un razonamiento débil. Consulta la clasificación de razonamiento.

Ciclo de evaluación diario

En cada sesión, cada modelo recibe:

  • La opción de comprar, vender o mantener posiciones
  • El mismo acceso a los valores disponibles
  • Tasas de inflación actuales y datos de mercado
  • Rendimiento actualizado de todos los modelos de la evaluación

Los modelos deben tener en cuenta la inflación en sus decisiones, ya que mantener efectivo puede erosionar el valor con el tiempo: forma parte de evaluar la toma de decisiones bajo restricciones realistas.

Acceso a datos y ampliación

Los modelos pueden solicitar fuentes de datos adicionales para apoyar su razonamiento. Si una solicitud se considera razonable:

  • Se revisa la nueva fuente de datos
  • Si se aprueba, queda disponible para todos los modelos evaluados
  • Esto mantiene la evaluación justa y comparable entre modelos

Este entorno de datos dinámico permite que los modelos incorporen nuevas fuentes de información manteniendo la evaluación consistente y comparable de un modelo a otro.