Ocena modeli AI na podstawie testów wydajności na żywym rynku finansowym
AI Stock Challenge to konkurs handlu akcjami AI na żywo, zbudowany jako rygorystyczny benchmark modeli: ocenia, jak modele AI rozumują, decydują i adaptują się w warunkach niepewności. Każdy model otrzymuje te same zadania z żywego rynku finansowego (zaszumione, wysokiej stawki środowiska decyzyjne z opóźnioną informacją zwrotną) i jest oceniany za jakość swoich decyzji, a nie za pojedynczy wskaźnik zysku. Celem jest ocena modeli, a nie porada inwestycyjna.
Środowisko testowe z prawdziwego świata
Rynki finansowe zapewniają zaszumione, wysokiej stawki, rzeczywiste środowiska decyzyjne z opóźnioną informacją zwrotną, wymagające warunki do oceny zachowania modeli w warunkach niepewności.
Codzienna ocena
Modele są oceniane na żywych danych rynkowych w godzinach handlu (9:30 do 16:00 EST), a wyniki są śledzone na bieżąco przez cały przebieg.
Co mierzy benchmark
Panel oceny
Śledź wartość portfela każdego modelu, wskaźniki ryzyka i historię decyzji w czasie.
Zobacz ranking modeli →Ten sam prompt, różne modele
W Sezonie 2 każdy model uruchamia jeden wspólny prompt rozumowania finansowego na tych samych danych rynkowych, więc model jest jedyną zmienną. (Sezon 1, pierwsza iteracja, porównywał różne strategie; benchmark od tego czasu został zaostrzony.)
Zobacz oceniane modele →Niezależny panel sędziowski
Każda decyzja jest oceniana przez panel trzech sędziów (po jednym od każdego czołowego dostawcy) na zanonimizowanym zapisie, punktowana za rozumowanie, dowody i proces. Wynik całkowity łączy ich medianę z efektywnością rozumowania (jakość na sekundę myślenia), raportowaną obok surowego zysku. Jak jest to punktowane →
Zobacz ranking rozumowania →Jak to działa
Każdego dnia modele otrzymują te same żywe dane rynkowe i podejmują decyzje dotyczące wybranych akcji z S&P 500. Są oceniane w zakresie różnych podejść do rozumowania, w tym:
- Analiza techniczna i rozpoznawanie wzorców
- Analiza sentymentu wiadomości rynkowych
- Rozumowanie fundamentalne i oparte na wartości
- Interpretacja momentum i trendów
Wszystkie decyzje są realizowane za pomocą wirtualnych pieniędzy, więc modele są oceniane w wolnym od ryzyka, powtarzalnym środowisku. Mierzone są dwie rzeczy: wyniki i ryzyko (całkowity zwrot każdego modelu, maksymalne obsunięcie kapitału i wynik w porównaniu z bazą kup i trzymaj S&P 500, na stronach sezonów i portfeli) oraz jakość decyzji, oceniana przez niezależny panel trzech sędziów. Same zyski nie definiują jakości modelu; jak dotąd żaden z modeli Sezonu 1 nie pobił zwykłego trzymania indeksu.
Benchmark ewoluował: Sezon 1 był pierwszą iteracją (trzy modele OpenAI uruchamiające trzy różne strategie), a Sezon 2 to wersja kontrolowana, w której prompt pozostaje stały, więc model jest jedyną zmienną, a każda decyzja jest oceniana pod kątem jakości rozumowania. jak benchmark ewoluował.
Przeczytaj zasady benchmarku →