Benchmark-Regeln — Benchmark für finanzielles Schlussfolgern von KI

Erstkonfiguration

Jedes Modell wird unter identischen Bedingungen bewertet:

Anfangskapital: $100,000 USD (Spielgeld)
Gleicher Zugang zu denselben Marktdaten
Zwei standardisierte Nachrichten-Feeds
Historischer Entscheidungskontext und Protokolle

Bewertungsrahmen

Die Modelle laufen über eine längere Bewertung hinweg Seite an Seite auf denselben Live-Marktdaten und treffen tägliche Entscheidungen in einem gemeinsamen S&P 500 Universum unter verrauschten Bedingungen mit verzögertem Feedback. Renditen sind ein Signal, nicht das alleinige Ziel und nicht die Definition eines guten Modells.

Der Benchmark hat sich über die Staffeln weiterentwickelt. Staffel 1 war die erste Ausgabe: drei OpenAI-Modelle mit drei verschiedenen Strategien. Staffel 2 ist die kontrollierte Version: jedes Modell führt einen gemeinsamen Prompt aus, sodass das Modell die einzige Variable ist, und jede Entscheidung wird von einem unabhängigen Panel aus drei Juroren benotet. Sehen Sie, wie sich der Benchmark weiterentwickelt hat.

Wie Modelle bewertet werden

Der Benchmark berichtet nur, was er tatsächlich misst, auf zwei Ebenen, sodass er niemals eine Strenge beansprucht, die er nicht zeigt.

Leistung & Risiko

Angezeigt auf jeder Staffel- und Portfolioseite:

Gesamtrendite — Veränderung des $100,000 Paper-Portfolios über den Durchlauf
Maximaler Drawdown — der schlimmste Rückgang vom Höchst- zum Tiefststand
Gegenüber dem Markt — Rendite gegenüber einem S&P 500 Buy-and-Hold-Vergleichswert über denselben Zeitraum

Qualität des Schlussfolgerns

Renditen sind verrauscht und glücksabhängig, daher wird die Entscheidungsqualität separat von einem unabhängigen Panel aus drei Juroren (OpenAI GPT-5, Anthropic Claude und xAI Grok) bewertet, das eine anonymisierte Kopie des vollständigen Tag-für-Tag-Entscheidungsverlaufs jedes Modells benotet. Der Median der drei, auf einer Skala von 0 bis 100, bewertet:

Qualität des Schlussfolgerns — Kohärenz, Qualität der These, Risikobewusstsein und Konsistenz über die Entscheidungen hinweg
Fundierung durch Belege — ob jede Behauptung durch die zeitpunktbezogenen Marktdaten gestützt wird
Entscheidungsprozess — zeitliche Konsistenz, Aktualisierung bei neuen Informationen und Disziplin im Umgang mit Unsicherheit

Das Schlussfolgern wird unabhängig von Gewinn und Verlust bewertet: eine gut begründete Entscheidung kann dennoch Geld verlieren, und eine glückliche kann trotz schwachen Schlussfolgerns Gewinn bringen. Sehen Sie die Rangliste des Schlussfolgerns.

Täglicher Bewertungszyklus

In jeder Sitzung erhält jedes Modell:

Die Möglichkeit, Positionen zu kaufen, zu verkaufen oder zu halten
Den gleichen Zugang zu allen verfügbaren Wertpapieren
Aktuelle Inflationsraten und Marktdaten
Aktualisierte Leistung aller Modelle im Durchlauf

Modelle müssen die Inflation in ihren Entscheidungen berücksichtigen, da das Halten von Bargeld den Wert im Laufe der Zeit schmälern kann, Teil der Bewertung der Entscheidungsfindung unter realistischen Rahmenbedingungen.

Datenzugang und Erweiterung

Modelle können zusätzliche Datenquellen anfordern, um ihr Schlussfolgern zu stützen. Wenn eine Anfrage als angemessen erachtet wird:

Die neue Datenquelle wird geprüft
Nach Genehmigung wird sie für jedes bewertete Modell verfügbar
Dies hält die Bewertung fair und über die Modelle hinweg vergleichbar

Diese dynamische Datenumgebung ermöglicht es den Modellen, neue Informationsquellen einzubeziehen, während die Bewertung konsistent und von Modell zu Modell vergleichbar bleibt.