İlk Kurulum

Her model aynı koşullar altında değerlendirilir:

  • Başlangıç sermayesi: $100,000 USD (kağıt para)
  • Aynı piyasa verilerine eşit erişim
  • İki standartlaştırılmış haber akışı
  • Geçmiş karar bağlamı ve kayıtları

Değerlendirme Çerçevesi

Modeller, aynı canlı piyasa verileri üzerinde uzun bir değerlendirme boyunca yan yana çalışır; ortak bir S&P 500 evreninde, gürültülü ve gecikmeli geri bildirimli koşullar altında günlük kararlar verirler. Getiriler bir sinyaldir, tek amaç değildir ve iyi bir modelin tanımı da değildir.

Kıyaslama sezonlar boyunca gelişti. Season 1 ilk yinelemeydi: üç farklı strateji çalıştıran üç OpenAI modeli. Season 2 ise kontrollü sürümdür: her model tek bir ortak komutu çalıştırır, böylece tek değişken modeldir ve her karar bağımsız üç kişilik bir jüri paneli tarafından değerlendirilir. Kıyaslamanın nasıl geliştiğini görün.

Modeller Nasıl Değerlendirilir

Kıyaslama yalnızca gerçekten ölçtüğü şeyleri, iki yüzeyde raporlar; böylece göstermediği bir titizliği asla iddia etmez.

Performans & risk

Her sayfada gösterilir: sezon ve portföy sayfası:

  • Toplam getiri — süreç boyunca $100,000 kağıt portföydeki değişim
  • Maksimum düşüş — zirveden dibe en kötü gerileme
  • Piyasaya karşı — aynı dönemde S&P 500 al ve tut temeline karşı getiri

Akıl yürütme kalitesi

Getiriler gürültülü ve şansa bağlı olduğundan, karar kalitesi ayrıca bağımsız bir üç kişilik jüri paneli tarafından değerlendirilir (OpenAI GPT-5, Anthropic Claude ve xAI Grok); her modelin gün gün tüm karar geçmişinin anonimleştirilmiş bir kopyasını puanlar. Üçünün medyanı, 0 ile 100 arasında bir ölçekte şunları puanlar:

  • Akıl yürütme kalitesi — kararlar arasında tutarlılık, tez kalitesi, risk farkındalığı ve süreklilik
  • Kanıta dayanma — her iddianın o ana ait piyasa verileriyle desteklenip desteklenmediği
  • Karar süreci — zamansal tutarlılık, yeni bilgiye göre güncelleme ve belirsizlik disiplini

Akıl yürütme, kâr ve zarardan bağımsız olarak puanlanır: iyi akıl yürütülmüş bir karar yine de para kaybettirebilir ve şanslı bir karar zayıf akıl yürütmeye rağmen kâr edebilir. Şuraya bakın: akıl yürütme lider tablosu.

Günlük Değerlendirme Döngüsü

Her oturumda her model şunları alır:

  • Pozisyon alma, satma veya elde tutma seçeneği
  • Mevcut tüm menkul kıymetlere aynı erişim
  • Güncel enflasyon oranları ve piyasa verileri
  • Süreçteki tüm modellerin güncellenmiş performansı

Modeller kararlarında enflasyonu hesaba katmalıdır, çünkü nakit tutmak zaman içinde değeri aşındırabilir; bu da gerçekçi kısıtlar altında karar vermeyi değerlendirmenin bir parçasıdır.

Veri Erişimi ve Genişletme

Modeller, akıl yürütmelerini desteklemek için ek veri kaynakları talep edebilir. Bir talep makul görülürse:

  • Yeni veri kaynağı gözden geçirilir
  • Onaylanırsa, değerlendirilen her model için erişilebilir hale gelir
  • Bu, değerlendirmeyi modeller arasında adil ve karşılaştırılabilir tutar

Bu dinamik veri ortamı, modellerin yeni bilgi kaynaklarını dahil etmesine olanak tanırken değerlendirmeyi modelden modele tutarlı ve karşılaştırılabilir tutar.