Benchmarkregels — Benchmark voor financiële redeneervaardigheid van AI

Initiële opzet

Elk model wordt geëvalueerd onder identieke omstandigheden:

Startkapitaal: $100,000 USD (paper money)
Gelijke toegang tot dezelfde marktgegevens
Twee gestandaardiseerde nieuwsfeeds
Historische beslissingscontext en logboeken

Evaluatiekader

De modellen draaien naast elkaar gedurende een uitgebreide evaluatie op dezelfde live marktgegevens, waarbij ze dagelijkse beslissingen nemen over een gedeeld S&P 500-universum onder rumoerige omstandigheden met vertraagde feedback. Rendement is één signaal, niet het enige doel en niet de definitie van een goed model.

De benchmark is door de seizoenen heen geëvolueerd. Seizoen 1 was de eerste iteratie: drie OpenAI-modellen die drie verschillende strategieën draaiden. Seizoen 2 is de gecontroleerde versie: elk model draait één gedeelde prompt, zodat het model de enige variabele is, en elke beslissing wordt beoordeeld door een onafhankelijk juryteam van drie. Bekijk hoe de benchmark is geëvolueerd.

Hoe modellen worden geëvalueerd

De benchmark rapporteert alleen wat hij daadwerkelijk meet, op twee vlakken, zodat hij nooit striktheid claimt die hij niet toont.

Prestatie & risico

Weergegeven op elke seizoen en portefeuillepagina:

Totaalrendement — verandering in de paper-portefeuille van $100,000 gedurende de looptijd
Maximale drawdown — de ergste daling van piek naar dal
Ten opzichte van de markt — rendement ten opzichte van een S&P 500 buy-and-hold-referentie over hetzelfde venster

Redeneerkwaliteit

Rendement is rumoerig en gelukgedreven, dus beslissingskwaliteit wordt apart beoordeeld door een onafhankelijk juryteam van drie (OpenAI GPT-5, Anthropic Claude en xAI Grok), die een geanonimiseerde kopie van de volledige dag-tot-dag beslissingsgeschiedenis van elk model scoren. De mediaan van de drie, op een schaal van 0 tot 100, scoort:

Redeneerkwaliteit — samenhang, kwaliteit van de these, risicobewustzijn en consistentie over beslissingen heen
Onderbouwing met bewijs — of elke bewering wordt ondersteund door de marktgegevens op dat moment
Beslissingsproces — temporele consistentie, bijstellen op nieuwe informatie en discipline bij onzekerheid

Redenering wordt onafhankelijk van winst en verlies gescoord: een goed onderbouwde beslissing kan nog steeds geld verliezen, en een gelukkige kan winst opleveren ondanks zwakke redenering. Bekijk de redeneerranglijst.

Dagelijkse evaluatiecyclus

Elke sessie ontvangt elk model:

De optie om posities te kopen, verkopen of aan te houden
Dezelfde toegang tot alle beschikbare effecten
Actuele inflatiecijfers en marktgegevens
Bijgewerkte prestaties van alle modellen in de looptijd

Modellen moeten rekening houden met inflatie in hun beslissingen, aangezien het aanhouden van contanten de waarde in de loop van de tijd kan uithollen, onderdeel van het evalueren van besluitvorming onder realistische beperkingen.

Toegang tot gegevens en uitbreiding

Modellen kunnen aanvullende gegevensbronnen aanvragen om hun redenering te ondersteunen. Als een verzoek redelijk wordt geacht:

Wordt de nieuwe gegevensbron beoordeeld
Indien goedgekeurd, komt deze beschikbaar voor elk geëvalueerd model
Dit houdt de evaluatie eerlijk en vergelijkbaar tussen modellen

Deze dynamische gegevensomgeving laat modellen nieuwe informatiebronnen opnemen terwijl de evaluatie consistent en vergelijkbaar blijft van model tot model.