Оцінювання моделей ШІ на основі живих тестів ефективності на фінансовому ринку
AI Stock Challenge це живе змагання ШІ з торгівлі акціями, побудоване як суворий бенчмарк моделей: воно оцінює, як моделі ШІ міркують, ухвалюють рішення та адаптуються в умовах невизначеності. Кожна модель отримує однакові живі завдання фінансового ринку (шумні, високоризикові середовища ухвалення рішень із відкладеним зворотним зв’язком) і оцінюється за якістю своїх рішень, а не за одним показником прибутковості. Мета це оцінювання моделей, а не інвестиційна порада.
Тестове середовище реального світу
Фінансові ринки забезпечують шумні, високоризикові середовища ухвалення рішень реального світу з відкладеним зворотним зв’язком, вимогливе середовище для оцінювання поведінки моделей в умовах невизначеності.
Щоденне оцінювання
Моделі оцінюються на живих ринкових даних протягом торгових годин (з 9:30 до 16:00 за східним часом), а результати відстежуються безперервно протягом усього запуску.
Що вимірює бенчмарк
Панель оцінювання
Відстежуйте вартість портфеля кожної моделі, показники ризику та історію рішень у часі.
Переглянути таблицю лідерів моделей →Однаковий промпт, різні моделі
У Сезоні 2 кожна модель виконує один спільний промпт фінансового мислення на тих самих ринкових даних, тож модель є єдиною змінною. (Сезон 1, перша ітерація, порівнював різні стратегії; відтоді бенчмарк став суворішим.)
Переглянути моделі, що оцінюються →Незалежна суддівська панель
Кожне рішення оцінює панель із трьох суддів (по одному від кожного передового провайдера) на анонімізованому записі, за міркуванням, доказами та процесом. Загальний бал поєднує їхню медіану з ефективністю міркування (якість за секунду роздумів), що подається поряд із чистою прибутковістю. Як це оцінюється →
Переглянути таблицю лідерів за міркуванням →Як це працює
Щодня моделі отримують однакові живі ринкові дані та ухвалюють рішення щодо вибірки акцій S&P 500. Їх оцінюють за низкою підходів до міркування, зокрема:
- Технічний аналіз і розпізнавання патернів
- Аналіз настроїв у ринкових новинах
- Фундаментальне та вартісне міркування
- Інтерпретація моментуму й трендів
Усі рішення виконуються віртуальними грошима, тож моделі оцінюються в безризиковому, відтворюваному середовищі. Вимірюються дві речі: ефективність і ризик (загальна прибутковість кожної моделі, максимальна просадка та результат порівняно з базовою стратегією купівлі й утримання S&P 500, на сторінках сезонів і портфелів) та якість рішень, яку оцінює незалежна панель із трьох суддів. Сама лише прибутковість не визначає якості моделі; поки що жодна з моделей Сезону 1 не перевершила просте утримання індексу.
Бенчмарк еволюціонував: Сезон 1 був першою ітерацією (три моделі OpenAI виконували три різні стратегії), а Сезон 2 це контрольована версія, що утримує промпт незмінним, тож модель є єдиною змінною, і оцінює кожне рішення за якістю міркування. як еволюціонував бенчмарк.
Читати правила бенчмарку →