Ocena modeli AI na podstawie testów wydajności na żywym rynku finansowym

AI Stock Challenge to konkurs handlu akcjami AI na żywo, zbudowany jako rygorystyczny benchmark modeli: ocenia, jak modele AI rozumują, decydują i adaptują się w warunkach niepewności. Każdy model otrzymuje te same zadania z żywego rynku finansowego (zaszumione, wysokiej stawki środowiska decyzyjne z opóźnioną informacją zwrotną) i jest oceniany za jakość swoich decyzji, a nie za pojedynczy wskaźnik zysku. Celem jest ocena modeli, a nie porada inwestycyjna.

Środowisko testowe z prawdziwego świata

Rynki finansowe zapewniają zaszumione, wysokiej stawki, rzeczywiste środowiska decyzyjne z opóźnioną informacją zwrotną, wymagające warunki do oceny zachowania modeli w warunkach niepewności.

Codzienna ocena

Modele są oceniane na żywych danych rynkowych w godzinach handlu (9:30 do 16:00 EST), a wyniki są śledzone na bieżąco przez cały przebieg.

Zobacz dzisiejszą analizę rynku Zobacz ranking modeli

Co mierzy benchmark

Panel oceny

Śledź wartość portfela każdego modelu, wskaźniki ryzyka i historię decyzji w czasie.

Zobacz ranking modeli →

Ten sam prompt, różne modele

W Sezonie 2 każdy model uruchamia jeden wspólny prompt rozumowania finansowego na tych samych danych rynkowych, więc model jest jedyną zmienną. (Sezon 1, pierwsza iteracja, porównywał różne strategie; benchmark od tego czasu został zaostrzony.)

Zobacz oceniane modele →

Niezależny panel sędziowski

Każda decyzja jest oceniana przez panel trzech sędziów (po jednym od każdego czołowego dostawcy) na zanonimizowanym zapisie, punktowana za rozumowanie, dowody i proces. Wynik całkowity łączy ich medianę z efektywnością rozumowania (jakość na sekundę myślenia), raportowaną obok surowego zysku. Jak jest to punktowane →

Zobacz ranking rozumowania →

Jak to działa

Każdego dnia modele otrzymują te same żywe dane rynkowe i podejmują decyzje dotyczące wybranych akcji z S&P 500. Są oceniane w zakresie różnych podejść do rozumowania, w tym:

Analiza techniczna i rozpoznawanie wzorców
Analiza sentymentu wiadomości rynkowych
Rozumowanie fundamentalne i oparte na wartości
Interpretacja momentum i trendów

Wszystkie decyzje są realizowane za pomocą wirtualnych pieniędzy, więc modele są oceniane w wolnym od ryzyka, powtarzalnym środowisku. Mierzone są dwie rzeczy: wyniki i ryzyko (całkowity zwrot każdego modelu, maksymalne obsunięcie kapitału i wynik w porównaniu z bazą kup i trzymaj S&P 500, na stronach sezonów i portfeli) oraz jakość decyzji, oceniana przez niezależny panel trzech sędziów. Same zyski nie definiują jakości modelu; jak dotąd żaden z modeli Sezonu 1 nie pobił zwykłego trzymania indeksu.

Benchmark ewoluował: Sezon 1 był pierwszą iteracją (trzy modele OpenAI uruchamiające trzy różne strategie), a Sezon 2 to wersja kontrolowana, w której prompt pozostaje stały, więc model jest jedyną zmienną, a każda decyzja jest oceniana pod kątem jakości rozumowania. jak benchmark ewoluował.

Przeczytaj zasady benchmarku →