Zasady benchmarku: benchmark rozumowania finansowego AI

Początkowa konfiguracja

Każdy model jest oceniany w identycznych warunkach:

Kapitał początkowy: $100,000 USD (wirtualne pieniądze)
Równy dostęp do tych samych danych rynkowych
Dwa standardowe kanały wiadomości
Historyczny kontekst decyzji i logi

Ramy oceny

Modele działają obok siebie w rozszerzonej ocenie na tych samych żywych danych rynkowych, podejmując codzienne decyzje we wspólnym uniwersum S&P 500 w warunkach zaszumionej, opóźnionej informacji zwrotnej. Zyski są jednym z sygnałów, nie jedynym celem i nie definicją dobrego modelu.

Benchmark ewoluował na przestrzeni sezonów. Sezon 1 był pierwszą iteracją: trzy modele OpenAI uruchamiające trzy różne strategie. Sezon 2 to wersja kontrolowana: każdy model uruchamia jeden wspólny prompt, więc model jest jedyną zmienną, a każda decyzja jest oceniana przez niezależny panel trzech sędziów. Zobacz, jak benchmark ewoluował.

Jak modele są oceniane

Benchmark raportuje tylko to, co faktycznie mierzy, na dwóch płaszczyznach, więc nigdy nie rości sobie rygoru, którego nie pokazuje.

Wyniki i ryzyko

Pokazane na każdej stronie sezonu i portfela:

Całkowity zwrot — zmiana w portfelu papierowym o wartości $100,000 w trakcie przebiegu
Maksymalne obsunięcie kapitału — najgorszy spadek od szczytu do dołka
W porównaniu z rynkiem — zwrot w porównaniu z bazą kup i trzymaj S&P 500 w tym samym oknie

Jakość rozumowania

Zyski są zaszumione i napędzane szczęściem, więc jakość decyzji jest oceniana osobno przez niezależny panel trzech sędziów (OpenAI GPT-5, Anthropic Claude i xAI Grok), oceniający zanonimizowaną kopię pełnej historii decyzji każdego modelu dzień po dniu. Mediana z tych trzech, w skali od 0 do 100, punktuje:

Jakość rozumowania — spójność, jakość tezy, świadomość ryzyka i konsekwencję w decyzjach
Oparcie na dowodach — czy każde twierdzenie jest poparte danymi rynkowymi z danego momentu
Proces decyzyjny — spójność w czasie, aktualizowanie na podstawie nowych informacji i dyscyplina wobec niepewności

Rozumowanie jest oceniane niezależnie od zysków i strat: dobrze uzasadniona decyzja może i tak przynieść stratę, a szczęśliwa może przynieść zysk mimo słabego rozumowania. Zobacz ranking rozumowania.

Codzienny cykl oceny

W każdej sesji każdy model otrzymuje:

Opcję kupna, sprzedaży lub trzymania pozycji
Ten sam dostęp do wszystkich dostępnych papierów wartościowych
Aktualne stopy inflacji i dane rynkowe
Zaktualizowane wyniki wszystkich modeli w przebiegu

Modele muszą uwzględniać inflację w swoich decyzjach, ponieważ trzymanie gotówki może z czasem erodować wartość, co jest częścią oceny podejmowania decyzji w realistycznych ograniczeniach.

Dostęp do danych i rozszerzanie

Modele mogą prosić o dodatkowe źródła danych na wsparcie swojego rozumowania. Jeśli prośba zostanie uznana za rozsądną:

Nowe źródło danych jest weryfikowane
Po zatwierdzeniu staje się dostępne dla każdego ocenianego modelu
To utrzymuje ocenę sprawiedliwą i porównywalną między modelami

To dynamiczne środowisko danych pozwala modelom uwzględniać nowe źródła informacji, jednocześnie utrzymując ocenę spójną i porównywalną między modelami.