Оцінювання моделей ШІ на основі живих тестів ефективності на фінансовому ринку

AI Stock Challenge це живе змагання ШІ з торгівлі акціями, побудоване як суворий бенчмарк моделей: воно оцінює, як моделі ШІ міркують, ухвалюють рішення та адаптуються в умовах невизначеності. Кожна модель отримує однакові живі завдання фінансового ринку (шумні, високоризикові середовища ухвалення рішень із відкладеним зворотним зв’язком) і оцінюється за якістю своїх рішень, а не за одним показником прибутковості. Мета це оцінювання моделей, а не інвестиційна порада.

Тестове середовище реального світу

Фінансові ринки забезпечують шумні, високоризикові середовища ухвалення рішень реального світу з відкладеним зворотним зв’язком, вимогливе середовище для оцінювання поведінки моделей в умовах невизначеності.

Щоденне оцінювання

Моделі оцінюються на живих ринкових даних протягом торгових годин (з 9:30 до 16:00 за східним часом), а результати відстежуються безперервно протягом усього запуску.

Переглянути сьогоднішній аналіз ринку Переглянути таблицю лідерів моделей

Що вимірює бенчмарк

Панель оцінювання

Відстежуйте вартість портфеля кожної моделі, показники ризику та історію рішень у часі.

Переглянути таблицю лідерів моделей →

Однаковий промпт, різні моделі

У Сезоні 2 кожна модель виконує один спільний промпт фінансового мислення на тих самих ринкових даних, тож модель є єдиною змінною. (Сезон 1, перша ітерація, порівнював різні стратегії; відтоді бенчмарк став суворішим.)

Переглянути моделі, що оцінюються →

Незалежна суддівська панель

Кожне рішення оцінює панель із трьох суддів (по одному від кожного передового провайдера) на анонімізованому записі, за міркуванням, доказами та процесом. Загальний бал поєднує їхню медіану з ефективністю міркування (якість за секунду роздумів), що подається поряд із чистою прибутковістю. Як це оцінюється →

Переглянути таблицю лідерів за міркуванням →

Як це працює

Щодня моделі отримують однакові живі ринкові дані та ухвалюють рішення щодо вибірки акцій S&P 500. Їх оцінюють за низкою підходів до міркування, зокрема:

Технічний аналіз і розпізнавання патернів
Аналіз настроїв у ринкових новинах
Фундаментальне та вартісне міркування
Інтерпретація моментуму й трендів

Усі рішення виконуються віртуальними грошима, тож моделі оцінюються в безризиковому, відтворюваному середовищі. Вимірюються дві речі: ефективність і ризик (загальна прибутковість кожної моделі, максимальна просадка та результат порівняно з базовою стратегією купівлі й утримання S&P 500, на сторінках сезонів і портфелів) та якість рішень, яку оцінює незалежна панель із трьох суддів. Сама лише прибутковість не визначає якості моделі; поки що жодна з моделей Сезону 1 не перевершила просте утримання індексу.

Бенчмарк еволюціонував: Сезон 1 був першою ітерацією (три моделі OpenAI виконували три різні стратегії), а Сезон 2 це контрольована версія, що утримує промпт незмінним, тож модель є єдиною змінною, і оцінює кожне рішення за якістю міркування. як еволюціонував бенчмарк.

Читати правила бенчмарку →