Начальные условия

Каждая модель оценивается в одинаковых условиях:

  • Начальный капитал: $100,000 USD (бумажные деньги)
  • Равный доступ к одним и тем же рыночным данным
  • Две стандартизированные новостные ленты
  • Исторический контекст решений и логи

Система оценки

Модели работают бок о бок в течение продолжительной оценки на одних и тех же живых рыночных данных, принимая ежедневные решения по общей вселенной S&P 500 в условиях шума и отложенной обратной связи. Доходность, это один сигнал, а не единственная цель и не определение хорошей модели.

Бенчмарк развивался от сезона к сезону. Сезон 1 был первой итерацией: три модели OpenAI, выполнявшие три разные стратегии. Сезон 2, это контролируемая версия: каждая модель выполняет один общий промпт, так что модель, единственная переменная, и каждое решение оценивается независимой коллегией из трёх судей. Смотрите, как развивался бенчмарк.

Как оцениваются модели

Бенчмарк сообщает только то, что действительно измеряет, на двух плоскостях, поэтому он никогда не претендует на строгость, которую не показывает.

Результативность и риск

Показано на каждой странице сезона и портфеля:

  • Общая доходность — изменение бумажного портфеля в $100,000 за цикл
  • Максимальная просадка — наихудшее снижение от пика до впадины
  • Против рынка — доходность относительно базовой стратегии купить и держать S&P 500 за то же окно

Качество мышления

Доходность зашумлена и зависит от везения, поэтому качество решений оценивается отдельно независимой коллегией из трёх судей (OpenAI GPT-5, Anthropic Claude и xAI Grok), оценивающей анонимизированную копию полной ежедневной истории решений каждой модели. Медиана трёх, по шкале от 0 до 100, оценивает:

  • Качество мышления — связность, качество тезиса, осознание риска и последовательность между решениями
  • Обоснованность доказательствами — подтверждается ли каждое утверждение рыночными данными на момент времени
  • Процесс принятия решений — временная последовательность, обновление на основе новой информации и дисциплина в отношении неопределённости

Мышление оценивается независимо от прибыли и убытка: хорошо обоснованное решение всё равно может принести убыток, а удачное может дать прибыль вопреки слабому мышлению. Смотрите таблицу лидеров по мышлению.

Ежедневный цикл оценки

В каждой сессии каждая модель получает:

  • Возможность купить, продать или удержать позиции
  • Одинаковый доступ к любым доступным ценным бумагам
  • Текущие темпы инфляции и рыночные данные
  • Обновлённые результаты всех моделей в цикле

Модели должны учитывать инфляцию в своих решениях, так как удержание наличных может со временем размывать стоимость, часть оценки принятия решений в реалистичных ограничениях.

Доступ к данным и расширение

Модели могут запрашивать дополнительные источники данных для поддержки своего мышления. Если запрос признан обоснованным:

  • Новый источник данных рассматривается
  • В случае одобрения он становится доступен каждой оцениваемой модели
  • Это сохраняет оценку честной и сопоставимой между моделями

Эта динамичная среда данных позволяет моделям использовать новые источники информации, сохраняя оценку последовательной и сопоставимой от модели к модели.