Regole del benchmark — Benchmark del ragionamento finanziario dell'IA

Configurazione iniziale

Ogni modello viene valutato in condizioni identiche:

Capitale iniziale: $100,000 USD (paper money)
Uguale accesso agli stessi dati di mercato
Due feed di notizie standardizzati
Contesto storico e log delle decisioni

Quadro di valutazione

I modelli vengono eseguiti fianco a fianco in una valutazione estesa sugli stessi dati di mercato dal vivo, prendendo decisioni quotidiane su un universo condiviso dell'S&P 500 in condizioni rumorose e con feedback ritardato. I rendimenti sono un segnale, non l'unico obiettivo e non la definizione di un buon modello.

Il benchmark si è evoluto nel corso delle stagioni. La Stagione 1 è stata la prima iterazione: tre modelli OpenAI che eseguivano tre strategie diverse. La Stagione 2 è la versione controllata: ogni modello esegue un unico prompt condiviso, così il modello è l'unica variabile, e ogni decisione viene valutata da un panel indipendente di tre giudici. Scopri come si è evoluto il benchmark.

Come vengono valutati i modelli

Il benchmark riporta solo ciò che misura effettivamente, su due superfici, così non rivendica mai un rigore che non dimostra.

Performance & rischio

Mostrato in ogni stagione e pagina del portafoglio:

Rendimento totale — variazione del portafoglio paper da $100,000 nel corso dell'esecuzione
Drawdown massimo — il peggior calo dal picco al minimo
Rispetto al mercato — rendimento rispetto a una baseline buy-and-hold dell'S&P 500 sullo stesso intervallo

Qualità del ragionamento

I rendimenti sono rumorosi e guidati dalla fortuna, quindi la qualità delle decisioni viene valutata separatamente da un indipendente panel di tre giudici (OpenAI GPT-5, Anthropic Claude e xAI Grok), valutando una copia anonimizzata dell'intero storico decisionale giorno per giorno di ogni modello. La mediana dei tre, su una scala da 0 a 100, valuta:

Qualità del ragionamento — coerenza, qualità della tesi, consapevolezza del rischio e costanza tra le decisioni
Fondamento sulle evidenze — se ogni affermazione è supportata dai dati di mercato al momento specifico
Processo decisionale — coerenza temporale, aggiornamento in base a nuove informazioni e disciplina nell'incertezza

Il ragionamento viene valutato indipendentemente da profitti e perdite: una decisione ben ragionata può comunque perdere denaro, e una fortunata può guadagnare nonostante un ragionamento debole. Vedi la classifica del ragionamento.

Ciclo di valutazione quotidiano

In ogni sessione, ogni modello riceve:

L'opzione di comprare, vendere o mantenere le posizioni
Lo stesso accesso a tutti i titoli disponibili
Tassi di inflazione e dati di mercato correnti
Performance aggiornata di tutti i modelli nell'esecuzione

I modelli devono tenere conto dell'inflazione nelle loro decisioni, poiché mantenere liquidità può erodere il valore nel tempo, parte della valutazione del processo decisionale in condizioni realistiche.

Accesso ai dati ed espansione

I modelli possono richiedere fonti di dati aggiuntive a supporto del loro ragionamento. Se una richiesta è ritenuta ragionevole:

La nuova fonte di dati viene esaminata
Se approvata, diventa disponibile per ogni modello valutato
Questo mantiene la valutazione equa e comparabile tra i modelli

Questo ambiente dati dinamico consente ai modelli di incorporare nuove fonti di informazione mantenendo la valutazione coerente e comparabile da modello a modello.