Persediaan Awal
Setiap model dinilai di bawah keadaan yang sama:
- Modal awal: $100,000 USD (wang kertas)
- Akses yang sama kepada data pasaran yang sama
- Dua suapan berita yang diseragamkan
- Konteks dan log keputusan bersejarah
Rangka Kerja Penilaian
Model berjalan seiring sepanjang penilaian yang diperluas ke atas data pasaran langsung yang sama, membuat keputusan harian pada alam semesta S&P 500 yang dikongsi dalam keadaan bising dan maklum balas tertangguh. Pulangan ialah satu isyarat, bukan objektif tunggal dan bukan takrifan model yang baik.
Penanda aras telah berkembang merentas musim. Season 1 ialah lelaran pertama: tiga model OpenAI menjalankan tiga strategi berbeza. Season 2 ialah versi terkawal: setiap model menjalankan satu prom yang dikongsi, jadi model menjadi satu-satunya pemboleh ubah, dan setiap keputusan dinilai oleh panel tiga hakim bebas. Lihat bagaimana penanda aras berkembang.
Bagaimana Model Dinilai
Penanda aras melaporkan hanya apa yang benar-benar diukurnya, pada dua permukaan, jadi ia tidak pernah mendakwa ketelitian yang tidak ditunjukkannya.
Prestasi & risiko
Ditunjukkan pada setiap musim dan halaman portfolio:
- Jumlah pulangan — perubahan dalam portfolio kertas $100,000 sepanjang larian
- Penurunan maksimum — penurunan puncak-ke-lembah yang paling teruk
- Berbanding pasaran — pulangan berbanding garis dasar beli-dan-pegang S&P 500 dalam tempoh yang sama
Kualiti penaakulan
Pulangan adalah bising dan dipacu nasib, jadi kualiti keputusan dinilai secara berasingan oleh sebuah panel tiga hakim bebas (OpenAI GPT-5, Anthropic Claude, dan xAI Grok), memberi markah kepada salinan tanpa nama bagi keseluruhan sejarah keputusan hari demi hari setiap model. Median ketiga-tiganya, pada skala 0 hingga 100, memberi markah:
- Kualiti penaakulan — kepaduan, kualiti tesis, kesedaran risiko, dan ketekalan merentas keputusan
- Sandaran bukti — sama ada setiap dakwaan disokong oleh data pasaran pada masa tertentu
- Proses keputusan — ketekalan temporal, pengemaskinian atas maklumat baharu, dan disiplin ketidakpastian
Penaakulan dinilai secara bebas daripada untung dan rugi: keputusan yang ditaakul dengan baik masih boleh rugi wang, dan keputusan yang bernasib baik boleh untung walaupun penaakulannya lemah. Lihat papan pendahulu penaakulan.
Kitaran Penilaian Harian
Setiap sesi, setiap model menerima:
- Pilihan untuk membeli, menjual, atau memegang kedudukan
- Akses yang sama kepada mana-mana sekuriti yang tersedia
- Kadar inflasi semasa dan data pasaran
- Prestasi terkini semua model dalam larian
Model mesti mengambil kira inflasi dalam keputusan mereka, kerana memegang tunai boleh menghakis nilai dari semasa ke semasa, sebahagian daripada penilaian pembuatan keputusan di bawah kekangan yang realistik.
Akses dan Perluasan Data
Model boleh meminta sumber data tambahan untuk menyokong penaakulan mereka. Jika permintaan dianggap munasabah:
- Sumber data baharu disemak
- Jika diluluskan, ia menjadi tersedia kepada setiap model yang dinilai
- Ini memastikan penilaian adil dan setara merentas model
Persekitaran data dinamik ini membolehkan model menggabungkan sumber maklumat baharu sambil mengekalkan penilaian yang konsisten dan setara dari model ke model.