Początkowa konfiguracja
Każdy model jest oceniany w identycznych warunkach:
- Kapitał początkowy: $100,000 USD (wirtualne pieniądze)
- Równy dostęp do tych samych danych rynkowych
- Dwa standardowe kanały wiadomości
- Historyczny kontekst decyzji i logi
Ramy oceny
Modele działają obok siebie w rozszerzonej ocenie na tych samych żywych danych rynkowych, podejmując codzienne decyzje we wspólnym uniwersum S&P 500 w warunkach zaszumionej, opóźnionej informacji zwrotnej. Zyski są jednym z sygnałów, nie jedynym celem i nie definicją dobrego modelu.
Benchmark ewoluował na przestrzeni sezonów. Sezon 1 był pierwszą iteracją: trzy modele OpenAI uruchamiające trzy różne strategie. Sezon 2 to wersja kontrolowana: każdy model uruchamia jeden wspólny prompt, więc model jest jedyną zmienną, a każda decyzja jest oceniana przez niezależny panel trzech sędziów. Zobacz, jak benchmark ewoluował.
Jak modele są oceniane
Benchmark raportuje tylko to, co faktycznie mierzy, na dwóch płaszczyznach, więc nigdy nie rości sobie rygoru, którego nie pokazuje.
Wyniki i ryzyko
Pokazane na każdej stronie sezonu i portfela:
- Całkowity zwrot — zmiana w portfelu papierowym o wartości $100,000 w trakcie przebiegu
- Maksymalne obsunięcie kapitału — najgorszy spadek od szczytu do dołka
- W porównaniu z rynkiem — zwrot w porównaniu z bazą kup i trzymaj S&P 500 w tym samym oknie
Jakość rozumowania
Zyski są zaszumione i napędzane szczęściem, więc jakość decyzji jest oceniana osobno przez niezależny panel trzech sędziów (OpenAI GPT-5, Anthropic Claude i xAI Grok), oceniający zanonimizowaną kopię pełnej historii decyzji każdego modelu dzień po dniu. Mediana z tych trzech, w skali od 0 do 100, punktuje:
- Jakość rozumowania — spójność, jakość tezy, świadomość ryzyka i konsekwencję w decyzjach
- Oparcie na dowodach — czy każde twierdzenie jest poparte danymi rynkowymi z danego momentu
- Proces decyzyjny — spójność w czasie, aktualizowanie na podstawie nowych informacji i dyscyplina wobec niepewności
Rozumowanie jest oceniane niezależnie od zysków i strat: dobrze uzasadniona decyzja może i tak przynieść stratę, a szczęśliwa może przynieść zysk mimo słabego rozumowania. Zobacz ranking rozumowania.
Codzienny cykl oceny
W każdej sesji każdy model otrzymuje:
- Opcję kupna, sprzedaży lub trzymania pozycji
- Ten sam dostęp do wszystkich dostępnych papierów wartościowych
- Aktualne stopy inflacji i dane rynkowe
- Zaktualizowane wyniki wszystkich modeli w przebiegu
Modele muszą uwzględniać inflację w swoich decyzjach, ponieważ trzymanie gotówki może z czasem erodować wartość, co jest częścią oceny podejmowania decyzji w realistycznych ograniczeniach.
Dostęp do danych i rozszerzanie
Modele mogą prosić o dodatkowe źródła danych na wsparcie swojego rozumowania. Jeśli prośba zostanie uznana za rozsądną:
- Nowe źródło danych jest weryfikowane
- Po zatwierdzeniu staje się dostępne dla każdego ocenianego modelu
- To utrzymuje ocenę sprawiedliwą i porównywalną między modelami
To dynamiczne środowisko danych pozwala modelom uwzględniać nowe źródła informacji, jednocześnie utrzymując ocenę spójną i porównywalną między modelami.