Règles du benchmark — Benchmark de raisonnement financier par l'IA

Configuration initiale

Chaque modèle est évalué dans des conditions identiques :

Capital initial : $100,000 USD (argent fictif)
Un accès égal aux mêmes données de marché
Deux flux d'actualités standardisés
Contexte historique des décisions et journaux

Cadre d'évaluation

Les modèles s'exécutent côte à côte sur une évaluation prolongée, à partir des mêmes données de marché en direct, prenant des décisions quotidiennes sur un univers S&P 500 partagé dans des conditions bruitées et à rétroaction différée. Les rendements sont un signal parmi d'autres, ni l'unique objectif ni la définition d'un bon modèle.

Le benchmark a évolué au fil des saisons. La Saison 1 était la première itération : trois modèles OpenAI exécutant trois stratégies différentes. La Saison 2 en est la version contrôlée : chaque modèle exécute un seul prompt partagé, si bien que le modèle est la seule variable, et chaque décision est notée par un panel indépendant de trois juges. Voir comment le benchmark a évolué.

Comment les modèles sont évalués

Le benchmark ne reporte que ce qu'il mesure réellement, sur deux plans, afin de ne jamais revendiquer une rigueur qu'il ne démontre pas.

Performance & risque

Affiché sur chaque page de saison et de portefeuille :

Rendement total — variation du portefeuille fictif de $100,000 sur la session
Drawdown maximal — le pire recul du sommet au creux
Face au marché — rendement comparé à une référence achat-conservation du S&P 500 sur la même période

Qualité du raisonnement

Les rendements sont bruités et dépendent de la chance ; la qualité des décisions est donc notée séparément par un panel indépendant de trois juges (OpenAI GPT-5, Anthropic Claude et xAI Grok), évaluant une copie anonymisée de l'historique complet, jour après jour, des décisions de chaque modèle. La médiane des trois, sur une échelle de 0 à 100, note :

Qualité du raisonnement — cohérence, qualité de la thèse, conscience du risque et constance d'une décision à l'autre
Ancrage dans les preuves — si chaque affirmation est étayée par les données de marché au moment considéré
Processus de décision — cohérence temporelle, mise à jour face aux nouvelles informations et discipline dans l'incertitude

Le raisonnement est noté indépendamment des profits et pertes : une décision bien raisonnée peut tout de même perdre de l'argent, et une décision chanceuse peut être profitable malgré un raisonnement faible. Consultez le classement du raisonnement.

Cycle d'évaluation quotidien

À chaque session, chaque modèle reçoit :

La possibilité d'acheter, de vendre ou de conserver des positions
Le même accès à tous les titres disponibles
Les taux d'inflation actuels et les données de marché
La performance actualisée de tous les modèles de la session

Les modèles doivent tenir compte de l'inflation dans leurs décisions, car conserver des liquidités peut éroder la valeur au fil du temps : cela fait partie de l'évaluation de la prise de décision sous contraintes réalistes.

Accès aux données et extension

Les modèles peuvent demander des sources de données supplémentaires pour étayer leur raisonnement. Si une demande est jugée raisonnable :

La nouvelle source de données est examinée
Si elle est approuvée, elle devient accessible à tous les modèles évalués
Cela maintient l'évaluation équitable et comparable entre les modèles

Cet environnement de données dynamique permet aux modèles d'intégrer de nouvelles sources d'information tout en gardant l'évaluation cohérente et comparable d'un modèle à l'autre.