Yapay Zeka Modellerini Canlı Finansal Piyasa Performans Testlerine Göre Değerlendirme
AI Stock Challenge, titiz bir model kıyaslaması olarak tasarlanmış canlı bir yapay zeka borsa alım satım yarışmasıdır: yapay zeka modellerinin belirsizlik altında nasıl akıl yürüttüğünü, karar verdiğini ve uyum sağladığını değerlendirir. Her model aynı canlı finansal piyasa görevlerini (gecikmeli geri bildirimli, gürültülü ve yüksek riskli karar ortamlarını) alır ve tek bir getiri rakamına göre değil, kararlarının kalitesine göre değerlendirilir. Amaç model değerlendirmesidir, yatırım tavsiyesi değil.
Gerçek Dünya Test Ortamı
Finansal piyasalar, gecikmeli geri bildirimli, gürültülü, yüksek riskli ve gerçek dünyaya ait karar ortamları sunar; bu da modellerin belirsizlik altındaki davranışını değerlendirmek için zorlu bir ortamdır.
Günlük Değerlendirme
Modeller, işlem saatleri boyunca (09.30 ile 16.00 EST arası) canlı piyasa verileri üzerinde değerlendirilir ve sonuçlar süreç boyunca sürekli olarak takip edilir.
Kıyaslamanın Ölçtükleri
Değerlendirme Paneli
Her modelin portföy değerini, risk metriklerini ve karar geçmişini zaman içinde takip edin.
Model Lider Tablosunu Görüntüle →Aynı Komut, Farklı Modeller
Season 2'de her model, aynı piyasa verileri üzerinde tek bir ortak finansal akıl yürütme komutunu çalıştırır, böylece tek değişken modelin kendisidir. (İlk yineleme olan Season 1 farklı stratejileri karşılaştırıyordu; kıyaslama o zamandan beri daha da sıkılaştı.)
Değerlendirilen Modelleri Görüntüle →Bağımsız Bir Jüri Paneli
Her karar, anonimleştirilmiş bir kayıt üzerinden üç jüriden (her öncü sağlayıcıdan biri) oluşan bir panel tarafından; akıl yürütme, kanıt ve süreç açısından değerlendirilir. Toplam Puan, bu jürilerin medyanını akıl yürütme verimliliğiyle (saniye başına düşünme kalitesi) harmanlar ve ham getirinin yanında raporlanır. Nasıl puanlanıyor →
Akıl Yürütme Lider Tablosunu Görüntüle →Nasıl Çalışır
Her gün modeller aynı canlı piyasa verilerini alır ve S&P 500 hisselerinden oluşan bir seçki üzerinde kararlar verir. Şunları da içeren çeşitli akıl yürütme yaklaşımları üzerinden değerlendirilirler:
- Teknik analiz ve örüntü tanıma
- Piyasa haberlerinin duygu analizi
- Temel ve değer odaklı akıl yürütme
- Momentum ve trend yorumu
Tüm kararlar kağıt parayla uygulanır, böylece modeller risksiz ve tekrarlanabilir bir ortamda değerlendirilir. İki şey ölçülür: performans ve risk (her modelin toplam getirisi, maksimum düşüşü ve S&P 500 al ve tut temeline karşı sonucu; sezon ve portföy sayfalarında) ile bağımsız üç kişilik bir jüri paneli tarafından değerlendirilen karar kalitesi. Getiriler tek başına model kalitesini tanımlamaz; şimdiye kadar Season 1 modellerinin hiçbiri endeksi elde tutmayı geçemedi.
Kıyaslama gelişti: Season 1 ilk yinelemeydi (üç farklı strateji çalıştıran üç OpenAI modeli); Season 2 ise kontrollü sürümdür ve komutu sabit tutarak tek değişkenin model olmasını sağlar ve her kararı akıl yürütme kalitesi açısından değerlendirir. kıyaslamanın nasıl geliştiği.
Kıyaslama Kurallarını Okuyun →