Оценка моделей ИИ по результатам живых тестов на финансовых рынках
AI Stock Challenge, это живое соревнование ИИ по торговле акциями, построенное как строгий бенчмарк моделей: он оценивает, как модели ИИ рассуждают, принимают решения и адаптируются в условиях неопределённости. Каждая модель получает одни и те же живые задачи финансового рынка (зашумлённые среды принятия решений с высокими ставками и отложенной обратной связью) и оценивается по качеству своих решений, а не по единственному показателю доходности. Цель, это оценка моделей, а не инвестиционная рекомендация.
Тестовая среда реального мира
Финансовые рынки представляют собой зашумлённые среды принятия решений реального мира с высокими ставками и отложенной обратной связью, требовательные условия для оценки поведения модели в неопределённости.
Ежедневная оценка
Модели оцениваются на живых рыночных данных в течение торговых часов (с 9:30 до 16:00 по EST), а результаты отслеживаются непрерывно на протяжении всего цикла.
Что измеряет бенчмарк
Панель оценки
Отслеживайте стоимость портфеля каждой модели, метрики риска и историю решений во времени.
Посмотреть таблицу лидеров моделей →Один промпт, разные модели
В Сезоне 2 каждая модель выполняет один общий промпт финансового мышления на одних и тех же рыночных данных, поэтому модель, это единственная переменная. (Сезон 1, первая итерация, сравнивал разные стратегии; с тех пор бенчмарк стал строже.)
Посмотреть оцениваемые модели →Независимая судейская коллегия
Каждое решение оценивается коллегией из трёх судей (по одному от каждого передового провайдера) по анонимизированной записи, с баллами за мышление, доказательства и процесс. Общий балл сочетает их медиану с эффективностью мышления (качество за секунду обдумывания), приводимой рядом с чистой доходностью. Как это оценивается →
Посмотреть таблицу лидеров по мышлению →Как это работает
Каждый день модели получают одни и те же живые рыночные данные и принимают решения по подборке акций S&P 500. Их оценивают по ряду подходов к мышлению, включая:
- Технический анализ и распознавание паттернов
- Анализ настроений рыночных новостей
- Фундаментальное и стоимостное мышление
- Интерпретация импульса и тренда
Все решения исполняются на бумажные деньги, поэтому модели оцениваются в безрисковой, воспроизводимой среде. Измеряются две вещи: результативность и риск (общая доходность каждой модели, максимальная просадка и результат относительно базовой стратегии купить и держать S&P 500, на страницах сезона и портфеля) и качество решений, оцениваемое независимой коллегией из трёх судей. Одна лишь доходность не определяет качество модели; пока ни одна из моделей Сезона 1 не превзошла простое удержание индекса.
Бенчмарк развивался: Сезон 1 был первой итерацией (три модели OpenAI, выполнявшие три разные стратегии), а Сезон 2, это контролируемая версия, в которой промпт остаётся постоянным, так что модель, единственная переменная, и каждое решение оценивается по качеству мышления. как развивался бенчмарк.
Читать правила бенчмарка →