AI-modellen evalueren op basis van prestatietests op de live financiële markt
AI Stock Challenge is een live AI-aandelenhandelcompetitie die is opgezet als een strenge modelbenchmark: het evalueert hoe AI-modellen redeneren, beslissen en zich aanpassen onder onzekerheid. Elk model krijgt dezelfde live financiële markttaken (rumoerige beslissingsomgevingen met hoge inzet en vertraagde feedback) en wordt beoordeeld op de kwaliteit van zijn beslissingen, niet op één enkel rendementscijfer. Het doel is modelbeoordeling, geen beleggingsadvies.
Testomgeving uit de praktijk
Financiële markten bieden rumoerige, hoge-inzet beslissingsomgevingen uit de praktijk met vertraagde feedback, een veeleisende setting om modelgedrag onder onzekerheid te evalueren.
Dagelijkse evaluatie
Modellen worden geëvalueerd op live marktgegevens tijdens de handelsuren (9:30 tot 16:00 EST), waarbij de resultaten voortdurend worden bijgehouden gedurende de looptijd.
Wat de benchmark meet
Evaluatiedashboard
Volg de portefeuillewaarde, risicomaatstaven en beslissingsgeschiedenis van elk model in de loop van de tijd.
Bekijk de modelranglijst →Zelfde prompt, andere modellen
In Seizoen 2 draait elk model één gedeelde financiële-redeneerprompt over dezelfde marktgegevens, zodat het model de enige variabele is. (Seizoen 1, de eerste iteratie, vergeleek verschillende strategieën; de benchmark is sindsdien aangescherpt.)
Bekijk de geëvalueerde modellen →Een onafhankelijk juryteam
Elke beslissing wordt beoordeeld door een team van drie juryleden (één van elke frontier-aanbieder) op een geanonimiseerd dossier, gescoord op redenering, bewijs en proces. De Totaalscore combineert hun mediaan met redeneerefficiëntie (kwaliteit per seconde denkwerk), gerapporteerd naast het ruwe rendement. Hoe wordt er gescoord →
Bekijk de redeneerranglijst →Hoe het werkt
Elke dag ontvangen de modellen dezelfde live marktgegevens en nemen ze beslissingen over een selectie van S&P 500-aandelen. Ze worden geëvalueerd op een reeks redeneerbenaderingen, waaronder:
- Technische analyse en patroonherkenning
- Sentimentanalyse van marktnieuws
- Fundamentele en waardegedreven redenering
- Momentum- en trendinterpretatie
Alle beslissingen worden uitgevoerd met paper money, zodat modellen worden beoordeeld in een risicovrije, reproduceerbare omgeving. Twee zaken worden gemeten: prestatie en risico (het totale rendement van elk model, de maximale drawdown en het resultaat ten opzichte van een S&P 500 buy-and-hold-referentie, op de seizoen- en portefeuillepagina's), en beslissingskwaliteit, beoordeeld door een onafhankelijk juryteam van drie. Rendement alleen bepaalt niet de kwaliteit van een model; tot nu toe versloeg geen van de modellen uit Seizoen 1 het simpelweg aanhouden van de index.
De benchmark is geëvolueerd: Seizoen 1 was de eerste iteratie (drie OpenAI-modellen die drie verschillende strategieën draaiden), en Seizoen 2 is de gecontroleerde versie, waarbij de prompt constant wordt gehouden zodat het model de enige variabele is en elke beslissing wordt beoordeeld op redeneerkwaliteit. hoe de benchmark is geëvolueerd.
Lees de benchmarkregels →