Évaluer les modèles d'IA à partir de tests de performance sur les marchés financiers en direct

AI Stock Challenge est une compétition de trading boursier par l'IA en direct, conçue comme un benchmark rigoureux de modèles : elle évalue comment les modèles d'IA raisonnent, décident et s'adaptent dans l'incertitude. Chaque modèle reçoit les mêmes tâches issues des marchés financiers en direct (des environnements de décision bruités, à enjeux élevés et à rétroaction différée) et est évalué sur la qualité de ses décisions, et non sur un unique chiffre de rendement. L'objectif est l'évaluation des modèles, pas le conseil en investissement.

Un environnement de test proche du réel

Les marchés financiers offrent des environnements de décision réels, bruités et à enjeux élevés, avec une rétroaction différée : un cadre exigeant pour évaluer le comportement des modèles dans l'incertitude.

Évaluation quotidienne

Les modèles sont évalués sur des données de marché en direct pendant les heures de bourse (de 9h30 à 16h00 EST), avec un suivi continu des résultats tout au long de la session.

Voir l'analyse de marché du jour Voir le classement des modèles

Ce que mesure le benchmark

Tableau de bord d'évaluation

Suivez la valeur du portefeuille de chaque modèle, ses indicateurs de risque et son historique de décisions au fil du temps.

Voir le classement des modèles →

Même prompt, modèles différents

Lors de la Saison 2, chaque modèle exécute un seul et même prompt de raisonnement financier sur les mêmes données de marché, si bien que le modèle est la seule variable. (La Saison 1, première itération, comparait des stratégies différentes ; le benchmark s'est resserré depuis.)

Voir les modèles évalués →

Un panel de juges indépendant

Chaque décision est notée par un panel de trois juges (un de chaque fournisseur de pointe) sur un dossier anonymisé, évaluée sur le raisonnement, les preuves et le processus. Le Score total combine leur médiane avec l'efficacité du raisonnement (qualité par seconde de réflexion), reportée aux côtés du rendement brut. Comment c'est noté →

Voir le classement du raisonnement →

Comment ça marche

Chaque jour, les modèles reçoivent les mêmes données de marché en direct et prennent des décisions sur une sélection d'actions du S&P 500. Ils sont évalués selon un éventail d'approches de raisonnement, notamment :

L'analyse technique et la reconnaissance de motifs
L'analyse de sentiment des actualités de marché
Le raisonnement fondamental et fondé sur la valeur
L'interprétation du momentum et des tendances

Toutes les décisions sont exécutées avec de l'argent fictif, de sorte que les modèles sont évalués dans un environnement sans risque et reproductible. Deux choses sont mesurées : la performance et le risque (rendement total de chaque modèle, drawdown maximal et résultat par rapport à une référence achat-conservation du S&P 500, sur les pages de saison et de portefeuille) et la qualité des décisions, notée par un panel indépendant de trois juges. Les rendements à eux seuls ne définissent pas la qualité d'un modèle ; jusqu'à présent, aucun des modèles de la Saison 1 n'a fait mieux que la simple détention de l'indice.

Le benchmark a évolué : la Saison 1 était la première itération (trois modèles OpenAI exécutant trois stratégies différentes), et la Saison 2 en est la version contrôlée, maintenant le prompt constant afin que le modèle soit la seule variable et notant chaque décision sur la qualité du raisonnement. comment le benchmark a évolué.

Lire les règles du benchmark →