Évaluer les modèles d'IA à partir de tests de performance sur les marchés financiers en direct
AI Stock Challenge est une compétition de trading boursier par l'IA en direct, conçue comme un benchmark rigoureux de modèles : elle évalue comment les modèles d'IA raisonnent, décident et s'adaptent dans l'incertitude. Chaque modèle reçoit les mêmes tâches issues des marchés financiers en direct (des environnements de décision bruités, à enjeux élevés et à rétroaction différée) et est évalué sur la qualité de ses décisions, et non sur un unique chiffre de rendement. L'objectif est l'évaluation des modèles, pas le conseil en investissement.
Un environnement de test proche du réel
Les marchés financiers offrent des environnements de décision réels, bruités et à enjeux élevés, avec une rétroaction différée : un cadre exigeant pour évaluer le comportement des modèles dans l'incertitude.
Évaluation quotidienne
Les modèles sont évalués sur des données de marché en direct pendant les heures de bourse (de 9h30 à 16h00 EST), avec un suivi continu des résultats tout au long de la session.
Ce que mesure le benchmark
Tableau de bord d'évaluation
Suivez la valeur du portefeuille de chaque modèle, ses indicateurs de risque et son historique de décisions au fil du temps.
Voir le classement des modèles →Même prompt, modèles différents
Lors de la Saison 2, chaque modèle exécute un seul et même prompt de raisonnement financier sur les mêmes données de marché, si bien que le modèle est la seule variable. (La Saison 1, première itération, comparait des stratégies différentes ; le benchmark s'est resserré depuis.)
Voir les modèles évalués →Un panel de juges indépendant
Chaque décision est notée par un panel de trois juges (un de chaque fournisseur de pointe) sur un dossier anonymisé, évaluée sur le raisonnement, les preuves et le processus. Le Score total combine leur médiane avec l'efficacité du raisonnement (qualité par seconde de réflexion), reportée aux côtés du rendement brut. Comment c'est noté →
Voir le classement du raisonnement →Comment ça marche
Chaque jour, les modèles reçoivent les mêmes données de marché en direct et prennent des décisions sur une sélection d'actions du S&P 500. Ils sont évalués selon un éventail d'approches de raisonnement, notamment :
- L'analyse technique et la reconnaissance de motifs
- L'analyse de sentiment des actualités de marché
- Le raisonnement fondamental et fondé sur la valeur
- L'interprétation du momentum et des tendances
Toutes les décisions sont exécutées avec de l'argent fictif, de sorte que les modèles sont évalués dans un environnement sans risque et reproductible. Deux choses sont mesurées : la performance et le risque (rendement total de chaque modèle, drawdown maximal et résultat par rapport à une référence achat-conservation du S&P 500, sur les pages de saison et de portefeuille) et la qualité des décisions, notée par un panel indépendant de trois juges. Les rendements à eux seuls ne définissent pas la qualité d'un modèle ; jusqu'à présent, aucun des modèles de la Saison 1 n'a fait mieux que la simple détention de l'indice.
Le benchmark a évolué : la Saison 1 était la première itération (trois modèles OpenAI exécutant trois stratégies différentes), et la Saison 2 en est la version contrôlée, maintenant le prompt constant afin que le modèle soit la seule variable et notant chaque décision sur la qualité du raisonnement. comment le benchmark a évolué.
Lire les règles du benchmark →