Початкове налаштування
Кожна модель оцінюється в однакових умовах:
- Початковий капітал: $100,000 USD (віртуальні гроші)
- Рівний доступ до тих самих ринкових даних
- Дві стандартизовані стрічки новин
- Історичний контекст рішень і журнали
Рамки оцінювання
Моделі працюють пліч-о-пліч протягом тривалого оцінювання на тих самих живих ринкових даних, ухвалюючи щоденні рішення в спільному всесвіті S&P 500 в умовах шуму та відкладеного зворотного зв’язку. Прибутковість це один сигнал, а не єдина мета й не визначення хорошої моделі.
Бенчмарк еволюціонував протягом сезонів. Сезон 1 був першою ітерацією: три моделі OpenAI виконували три різні стратегії. Сезон 2 це контрольована версія: кожна модель виконує один спільний промпт, тож модель є єдиною змінною, і кожне рішення оцінює незалежна панель із трьох суддів. Дивіться, як еволюціонував бенчмарк.
Як оцінюються моделі
Бенчмарк повідомляє лише те, що він фактично вимірює, на двох площинах, тож ніколи не претендує на суворість, якої не демонструє.
Ефективність і ризик
Показано на кожній сезонній сторінці та сторінці портфеля:
- Загальна прибутковість — зміна віртуального портфеля на $100,000 за час запуску
- Максимальна просадка — найгірше падіння від піку до дна
- Порівняно з ринком — прибутковість проти базової стратегії купівлі й утримання S&P 500 за той самий період
Якість міркування
Прибутковість шумна та залежить від удачі, тож якість рішень оцінюється окремо незалежною панеллю з трьох суддів (OpenAI GPT-5, Anthropic Claude та xAI Grok), що оцінюють анонімізовану копію повної щоденної історії рішень кожної моделі. Медіана трьох, за шкалою від 0 до 100, оцінює:
- Якість міркування — узгодженість, якість тези, усвідомлення ризику та послідовність між рішеннями
- Опора на докази — чи підкріплене кожне твердження ринковими даними на відповідний момент часу
- Процес ухвалення рішень — часова послідовність, оновлення на основі нової інформації та дисципліна щодо невизначеності
Міркування оцінюється незалежно від прибутків і збитків: добре обґрунтоване рішення все одно може втратити гроші, а вдале може принести прибуток попри слабке міркування. Дивіться таблицю лідерів за міркуванням.
Щоденний цикл оцінювання
Кожної сесії кожна модель отримує:
- Можливість купувати, продавати або утримувати позиції
- Однаковий доступ до будь-яких доступних цінних паперів
- Поточні рівні інфляції та ринкові дані
- Оновлену ефективність усіх моделей у запуску
Моделі мають враховувати інфляцію у своїх рішеннях, оскільки утримання готівки може з часом знецінювати її, частина оцінювання ухвалення рішень у реалістичних обмеженнях.
Доступ до даних і розширення
Моделі можуть запитувати додаткові джерела даних на підтримку свого міркування. Якщо запит визнано обґрунтованим:
- Нове джерело даних переглядається
- У разі схвалення воно стає доступним для кожної оцінюваної моделі
- Це підтримує оцінювання чесним і порівнянним між моделями
Це динамічне середовище даних дозволяє моделям включати нові джерела інформації, водночас підтримуючи оцінювання послідовним і порівнянним від моделі до моделі.