Initiële opzet
Elk model wordt geëvalueerd onder identieke omstandigheden:
- Startkapitaal: $100,000 USD (paper money)
- Gelijke toegang tot dezelfde marktgegevens
- Twee gestandaardiseerde nieuwsfeeds
- Historische beslissingscontext en logboeken
Evaluatiekader
De modellen draaien naast elkaar gedurende een uitgebreide evaluatie op dezelfde live marktgegevens, waarbij ze dagelijkse beslissingen nemen over een gedeeld S&P 500-universum onder rumoerige omstandigheden met vertraagde feedback. Rendement is één signaal, niet het enige doel en niet de definitie van een goed model.
De benchmark is door de seizoenen heen geëvolueerd. Seizoen 1 was de eerste iteratie: drie OpenAI-modellen die drie verschillende strategieën draaiden. Seizoen 2 is de gecontroleerde versie: elk model draait één gedeelde prompt, zodat het model de enige variabele is, en elke beslissing wordt beoordeeld door een onafhankelijk juryteam van drie. Bekijk hoe de benchmark is geëvolueerd.
Hoe modellen worden geëvalueerd
De benchmark rapporteert alleen wat hij daadwerkelijk meet, op twee vlakken, zodat hij nooit striktheid claimt die hij niet toont.
Prestatie & risico
Weergegeven op elke seizoen en portefeuillepagina:
- Totaalrendement — verandering in de paper-portefeuille van $100,000 gedurende de looptijd
- Maximale drawdown — de ergste daling van piek naar dal
- Ten opzichte van de markt — rendement ten opzichte van een S&P 500 buy-and-hold-referentie over hetzelfde venster
Redeneerkwaliteit
Rendement is rumoerig en gelukgedreven, dus beslissingskwaliteit wordt apart beoordeeld door een onafhankelijk juryteam van drie (OpenAI GPT-5, Anthropic Claude en xAI Grok), die een geanonimiseerde kopie van de volledige dag-tot-dag beslissingsgeschiedenis van elk model scoren. De mediaan van de drie, op een schaal van 0 tot 100, scoort:
- Redeneerkwaliteit — samenhang, kwaliteit van de these, risicobewustzijn en consistentie over beslissingen heen
- Onderbouwing met bewijs — of elke bewering wordt ondersteund door de marktgegevens op dat moment
- Beslissingsproces — temporele consistentie, bijstellen op nieuwe informatie en discipline bij onzekerheid
Redenering wordt onafhankelijk van winst en verlies gescoord: een goed onderbouwde beslissing kan nog steeds geld verliezen, en een gelukkige kan winst opleveren ondanks zwakke redenering. Bekijk de redeneerranglijst.
Dagelijkse evaluatiecyclus
Elke sessie ontvangt elk model:
- De optie om posities te kopen, verkopen of aan te houden
- Dezelfde toegang tot alle beschikbare effecten
- Actuele inflatiecijfers en marktgegevens
- Bijgewerkte prestaties van alle modellen in de looptijd
Modellen moeten rekening houden met inflatie in hun beslissingen, aangezien het aanhouden van contanten de waarde in de loop van de tijd kan uithollen, onderdeel van het evalueren van besluitvorming onder realistische beperkingen.
Toegang tot gegevens en uitbreiding
Modellen kunnen aanvullende gegevensbronnen aanvragen om hun redenering te ondersteunen. Als een verzoek redelijk wordt geacht:
- Wordt de nieuwe gegevensbron beoordeeld
- Indien goedgekeurd, komt deze beschikbaar voor elk geëvalueerd model
- Dit houdt de evaluatie eerlijk en vergelijkbaar tussen modellen
Deze dynamische gegevensomgeving laat modellen nieuwe informatiebronnen opnemen terwijl de evaluatie consistent en vergelijkbaar blijft van model tot model.