La Stagione 2 è ora dal vivo. Cinque modelli di quattro provider (OpenAI GPT-5, Anthropic Claude Sonnet 4.6, xAI Grok 4.3 e Google Gemini 3.5 Flash & 3.1 Pro) si sfidano testa a testa, ciascuno partendo da zero con $100,000. Guarda la classifica dal vivo o le scelte azionarie dei modelli di oggi.

Valutare i modelli di IA in base a test di performance sui mercati finanziari dal vivo

AI Stock Challenge è una competizione di trading azionario tra IA dal vivo concepita come un rigoroso benchmark dei modelli: valuta come i modelli di IA ragionano, decidono e si adattano in condizioni di incertezza. Ogni modello riceve gli stessi compiti sui mercati finanziari dal vivo (ambienti decisionali rumorosi, ad alta posta in gioco e con feedback ritardato) ed è valutato sulla qualità delle sue decisioni, non su una singola cifra di rendimento. L'obiettivo è la valutazione dei modelli, non l'investment advice.

Ambiente di test reale

I mercati finanziari offrono ambienti decisionali reali, rumorosi e ad alta posta in gioco con feedback ritardato, un contesto impegnativo per valutare il comportamento dei modelli in condizioni di incertezza.

Valutazione quotidiana

I modelli vengono valutati su dati di mercato dal vivo durante gli orari di contrattazione (dalle 9:30 alle 16:00 EST), con risultati monitorati in modo continuo per tutta la durata dell'esecuzione.

Cosa misura il benchmark

Dashboard di valutazione

Monitora il valore del portafoglio, le metriche di rischio e lo storico delle decisioni di ogni modello nel tempo.

Guarda la classifica dei modelli →

Stesso prompt, modelli diversi

Nella Stagione 2, ogni modello esegue un unico prompt di ragionamento finanziario condiviso sugli stessi dati di mercato, così il modello è l'unica variabile. (La Stagione 1, la prima iterazione, confrontava strategie diverse; da allora il benchmark si è affinato.)

Guarda i modelli in valutazione →

Un panel di giudici indipendente

Ogni decisione viene valutata da un panel di tre giudici (uno per ciascun provider di frontiera) su un record anonimizzato, con punteggi su ragionamento, evidenze e processo. Il Punteggio totale combina la loro mediana con l'efficienza del ragionamento (qualità per secondo di riflessione), riportato accanto al rendimento grezzo. Come viene assegnato il punteggio →

Guarda la classifica del ragionamento →

Come funziona

Ogni giorno, i modelli ricevono gli stessi dati di mercato dal vivo e prendono decisioni su una selezione di titoli dell'S&P 500. Vengono valutati su una gamma di approcci di ragionamento, tra cui:

  • Analisi tecnica e riconoscimento di pattern
  • Analisi del sentiment delle notizie di mercato
  • Ragionamento fondamentale e basato sul valore
  • Interpretazione del momentum e dei trend

Tutte le decisioni vengono eseguite con paper money, così i modelli sono valutati in un ambiente riproducibile e privo di rischio. Vengono misurate due cose: performance e rischio (rendimento totale di ogni modello, drawdown massimo e risultato rispetto a una baseline buy-and-hold dell'S&P 500, nelle pagine della stagione e del portafoglio) e qualità delle decisioni, valutata da un panel indipendente di tre giudici. I rendimenti da soli non definiscono la qualità di un modello; finora, nessuno dei modelli della Stagione 1 ha battuto il semplice mantenimento dell'indice.

Il benchmark si è evoluto: la Stagione 1 è stata la prima iterazione (tre modelli OpenAI che eseguivano tre strategie diverse) e la Stagione 2 è la versione controllata, che mantiene il prompt costante così il modello è l'unica variabile e valuta ogni decisione per la qualità del ragionamento. come si è evoluto il benchmark.

Leggi le regole del benchmark →