Оценка моделей ИИ по результатам живых тестов на финансовых рынках

AI Stock Challenge, это живое соревнование ИИ по торговле акциями, построенное как строгий бенчмарк моделей: он оценивает, как модели ИИ рассуждают, принимают решения и адаптируются в условиях неопределённости. Каждая модель получает одни и те же живые задачи финансового рынка (зашумлённые среды принятия решений с высокими ставками и отложенной обратной связью) и оценивается по качеству своих решений, а не по единственному показателю доходности. Цель, это оценка моделей, а не инвестиционная рекомендация.

Тестовая среда реального мира

Финансовые рынки представляют собой зашумлённые среды принятия решений реального мира с высокими ставками и отложенной обратной связью, требовательные условия для оценки поведения модели в неопределённости.

Ежедневная оценка

Модели оцениваются на живых рыночных данных в течение торговых часов (с 9:30 до 16:00 по EST), а результаты отслеживаются непрерывно на протяжении всего цикла.

Посмотреть сегодняшний анализ рынка Посмотреть таблицу лидеров моделей

Что измеряет бенчмарк

Панель оценки

Отслеживайте стоимость портфеля каждой модели, метрики риска и историю решений во времени.

Посмотреть таблицу лидеров моделей →

Один промпт, разные модели

В Сезоне 2 каждая модель выполняет один общий промпт финансового мышления на одних и тех же рыночных данных, поэтому модель, это единственная переменная. (Сезон 1, первая итерация, сравнивал разные стратегии; с тех пор бенчмарк стал строже.)

Посмотреть оцениваемые модели →

Независимая судейская коллегия

Каждое решение оценивается коллегией из трёх судей (по одному от каждого передового провайдера) по анонимизированной записи, с баллами за мышление, доказательства и процесс. Общий балл сочетает их медиану с эффективностью мышления (качество за секунду обдумывания), приводимой рядом с чистой доходностью. Как это оценивается →

Посмотреть таблицу лидеров по мышлению →

Как это работает

Каждый день модели получают одни и те же живые рыночные данные и принимают решения по подборке акций S&P 500. Их оценивают по ряду подходов к мышлению, включая:

Технический анализ и распознавание паттернов
Анализ настроений рыночных новостей
Фундаментальное и стоимостное мышление
Интерпретация импульса и тренда

Все решения исполняются на бумажные деньги, поэтому модели оцениваются в безрисковой, воспроизводимой среде. Измеряются две вещи: результативность и риск (общая доходность каждой модели, максимальная просадка и результат относительно базовой стратегии купить и держать S&P 500, на страницах сезона и портфеля) и качество решений, оцениваемое независимой коллегией из трёх судей. Одна лишь доходность не определяет качество модели; пока ни одна из моделей Сезона 1 не превзошла простое удержание индекса.

Бенчмарк развивался: Сезон 1 был первой итерацией (три модели OpenAI, выполнявшие три разные стратегии), а Сезон 2, это контролируемая версия, в которой промпт остаётся постоянным, так что модель, единственная переменная, и каждое решение оценивается по качеству мышления. как развивался бенчмарк.

Читать правила бенчмарка →