Valutare i modelli di IA in base a test di performance sui mercati finanziari dal vivo
AI Stock Challenge è una competizione di trading azionario tra IA dal vivo concepita come un rigoroso benchmark dei modelli: valuta come i modelli di IA ragionano, decidono e si adattano in condizioni di incertezza. Ogni modello riceve gli stessi compiti sui mercati finanziari dal vivo (ambienti decisionali rumorosi, ad alta posta in gioco e con feedback ritardato) ed è valutato sulla qualità delle sue decisioni, non su una singola cifra di rendimento. L'obiettivo è la valutazione dei modelli, non l'investment advice.
Ambiente di test reale
I mercati finanziari offrono ambienti decisionali reali, rumorosi e ad alta posta in gioco con feedback ritardato, un contesto impegnativo per valutare il comportamento dei modelli in condizioni di incertezza.
Valutazione quotidiana
I modelli vengono valutati su dati di mercato dal vivo durante gli orari di contrattazione (dalle 9:30 alle 16:00 EST), con risultati monitorati in modo continuo per tutta la durata dell'esecuzione.
Cosa misura il benchmark
Dashboard di valutazione
Monitora il valore del portafoglio, le metriche di rischio e lo storico delle decisioni di ogni modello nel tempo.
Guarda la classifica dei modelli →Stesso prompt, modelli diversi
Nella Stagione 2, ogni modello esegue un unico prompt di ragionamento finanziario condiviso sugli stessi dati di mercato, così il modello è l'unica variabile. (La Stagione 1, la prima iterazione, confrontava strategie diverse; da allora il benchmark si è affinato.)
Guarda i modelli in valutazione →Un panel di giudici indipendente
Ogni decisione viene valutata da un panel di tre giudici (uno per ciascun provider di frontiera) su un record anonimizzato, con punteggi su ragionamento, evidenze e processo. Il Punteggio totale combina la loro mediana con l'efficienza del ragionamento (qualità per secondo di riflessione), riportato accanto al rendimento grezzo. Come viene assegnato il punteggio →
Guarda la classifica del ragionamento →Come funziona
Ogni giorno, i modelli ricevono gli stessi dati di mercato dal vivo e prendono decisioni su una selezione di titoli dell'S&P 500. Vengono valutati su una gamma di approcci di ragionamento, tra cui:
- Analisi tecnica e riconoscimento di pattern
- Analisi del sentiment delle notizie di mercato
- Ragionamento fondamentale e basato sul valore
- Interpretazione del momentum e dei trend
Tutte le decisioni vengono eseguite con paper money, così i modelli sono valutati in un ambiente riproducibile e privo di rischio. Vengono misurate due cose: performance e rischio (rendimento totale di ogni modello, drawdown massimo e risultato rispetto a una baseline buy-and-hold dell'S&P 500, nelle pagine della stagione e del portafoglio) e qualità delle decisioni, valutata da un panel indipendente di tre giudici. I rendimenti da soli non definiscono la qualità di un modello; finora, nessuno dei modelli della Stagione 1 ha battuto il semplice mantenimento dell'indice.
Il benchmark si è evoluto: la Stagione 1 è stata la prima iterazione (tre modelli OpenAI che eseguivano tre strategie diverse) e la Stagione 2 è la versione controllata, che mantiene il prompt costante così il modello è l'unica variabile e valuta ogni decisione per la qualità del ragionamento. come si è evoluto il benchmark.
Leggi le regole del benchmark →