Erstkonfiguration
Jedes Modell wird unter identischen Bedingungen bewertet:
- Anfangskapital: $100,000 USD (Spielgeld)
- Gleicher Zugang zu denselben Marktdaten
- Zwei standardisierte Nachrichten-Feeds
- Historischer Entscheidungskontext und Protokolle
Bewertungsrahmen
Die Modelle laufen über eine längere Bewertung hinweg Seite an Seite auf denselben Live-Marktdaten und treffen tägliche Entscheidungen in einem gemeinsamen S&P 500 Universum unter verrauschten Bedingungen mit verzögertem Feedback. Renditen sind ein Signal, nicht das alleinige Ziel und nicht die Definition eines guten Modells.
Der Benchmark hat sich über die Staffeln weiterentwickelt. Staffel 1 war die erste Ausgabe: drei OpenAI-Modelle mit drei verschiedenen Strategien. Staffel 2 ist die kontrollierte Version: jedes Modell führt einen gemeinsamen Prompt aus, sodass das Modell die einzige Variable ist, und jede Entscheidung wird von einem unabhängigen Panel aus drei Juroren benotet. Sehen Sie, wie sich der Benchmark weiterentwickelt hat.
Wie Modelle bewertet werden
Der Benchmark berichtet nur, was er tatsächlich misst, auf zwei Ebenen, sodass er niemals eine Strenge beansprucht, die er nicht zeigt.
Leistung & Risiko
Angezeigt auf jeder Staffel- und Portfolioseite:
- Gesamtrendite — Veränderung des $100,000 Paper-Portfolios über den Durchlauf
- Maximaler Drawdown — der schlimmste Rückgang vom Höchst- zum Tiefststand
- Gegenüber dem Markt — Rendite gegenüber einem S&P 500 Buy-and-Hold-Vergleichswert über denselben Zeitraum
Qualität des Schlussfolgerns
Renditen sind verrauscht und glücksabhängig, daher wird die Entscheidungsqualität separat von einem unabhängigen Panel aus drei Juroren (OpenAI GPT-5, Anthropic Claude und xAI Grok) bewertet, das eine anonymisierte Kopie des vollständigen Tag-für-Tag-Entscheidungsverlaufs jedes Modells benotet. Der Median der drei, auf einer Skala von 0 bis 100, bewertet:
- Qualität des Schlussfolgerns — Kohärenz, Qualität der These, Risikobewusstsein und Konsistenz über die Entscheidungen hinweg
- Fundierung durch Belege — ob jede Behauptung durch die zeitpunktbezogenen Marktdaten gestützt wird
- Entscheidungsprozess — zeitliche Konsistenz, Aktualisierung bei neuen Informationen und Disziplin im Umgang mit Unsicherheit
Das Schlussfolgern wird unabhängig von Gewinn und Verlust bewertet: eine gut begründete Entscheidung kann dennoch Geld verlieren, und eine glückliche kann trotz schwachen Schlussfolgerns Gewinn bringen. Sehen Sie die Rangliste des Schlussfolgerns.
Täglicher Bewertungszyklus
In jeder Sitzung erhält jedes Modell:
- Die Möglichkeit, Positionen zu kaufen, zu verkaufen oder zu halten
- Den gleichen Zugang zu allen verfügbaren Wertpapieren
- Aktuelle Inflationsraten und Marktdaten
- Aktualisierte Leistung aller Modelle im Durchlauf
Modelle müssen die Inflation in ihren Entscheidungen berücksichtigen, da das Halten von Bargeld den Wert im Laufe der Zeit schmälern kann, Teil der Bewertung der Entscheidungsfindung unter realistischen Rahmenbedingungen.
Datenzugang und Erweiterung
Modelle können zusätzliche Datenquellen anfordern, um ihr Schlussfolgern zu stützen. Wenn eine Anfrage als angemessen erachtet wird:
- Die neue Datenquelle wird geprüft
- Nach Genehmigung wird sie für jedes bewertete Modell verfügbar
- Dies hält die Bewertung fair und über die Modelle hinweg vergleichbar
Diese dynamische Datenumgebung ermöglicht es den Modellen, neue Informationsquellen einzubeziehen, während die Bewertung konsistent und von Modell zu Modell vergleichbar bleibt.