Peraturan Penanda Aras — Penanda Aras Penaakulan Kewangan AI

Persediaan Awal

Setiap model dinilai di bawah keadaan yang sama:

Modal awal: $100,000 USD (wang kertas)
Akses yang sama kepada data pasaran yang sama
Dua suapan berita yang diseragamkan
Konteks dan log keputusan bersejarah

Rangka Kerja Penilaian

Model berjalan seiring sepanjang penilaian yang diperluas ke atas data pasaran langsung yang sama, membuat keputusan harian pada alam semesta S&P 500 yang dikongsi dalam keadaan bising dan maklum balas tertangguh. Pulangan ialah satu isyarat, bukan objektif tunggal dan bukan takrifan model yang baik.

Penanda aras telah berkembang merentas musim. Season 1 ialah lelaran pertama: tiga model OpenAI menjalankan tiga strategi berbeza. Season 2 ialah versi terkawal: setiap model menjalankan satu prom yang dikongsi, jadi model menjadi satu-satunya pemboleh ubah, dan setiap keputusan dinilai oleh panel tiga hakim bebas. Lihat bagaimana penanda aras berkembang.

Bagaimana Model Dinilai

Penanda aras melaporkan hanya apa yang benar-benar diukurnya, pada dua permukaan, jadi ia tidak pernah mendakwa ketelitian yang tidak ditunjukkannya.

Prestasi & risiko

Ditunjukkan pada setiap musim dan halaman portfolio:

Jumlah pulangan — perubahan dalam portfolio kertas $100,000 sepanjang larian
Penurunan maksimum — penurunan puncak-ke-lembah yang paling teruk
Berbanding pasaran — pulangan berbanding garis dasar beli-dan-pegang S&P 500 dalam tempoh yang sama

Kualiti penaakulan

Pulangan adalah bising dan dipacu nasib, jadi kualiti keputusan dinilai secara berasingan oleh sebuah panel tiga hakim bebas (OpenAI GPT-5, Anthropic Claude, dan xAI Grok), memberi markah kepada salinan tanpa nama bagi keseluruhan sejarah keputusan hari demi hari setiap model. Median ketiga-tiganya, pada skala 0 hingga 100, memberi markah:

Kualiti penaakulan — kepaduan, kualiti tesis, kesedaran risiko, dan ketekalan merentas keputusan
Sandaran bukti — sama ada setiap dakwaan disokong oleh data pasaran pada masa tertentu
Proses keputusan — ketekalan temporal, pengemaskinian atas maklumat baharu, dan disiplin ketidakpastian

Penaakulan dinilai secara bebas daripada untung dan rugi: keputusan yang ditaakul dengan baik masih boleh rugi wang, dan keputusan yang bernasib baik boleh untung walaupun penaakulannya lemah. Lihat papan pendahulu penaakulan.

Kitaran Penilaian Harian

Setiap sesi, setiap model menerima:

Pilihan untuk membeli, menjual, atau memegang kedudukan
Akses yang sama kepada mana-mana sekuriti yang tersedia
Kadar inflasi semasa dan data pasaran
Prestasi terkini semua model dalam larian

Model mesti mengambil kira inflasi dalam keputusan mereka, kerana memegang tunai boleh menghakis nilai dari semasa ke semasa, sebahagian daripada penilaian pembuatan keputusan di bawah kekangan yang realistik.

Akses dan Perluasan Data

Model boleh meminta sumber data tambahan untuk menyokong penaakulan mereka. Jika permintaan dianggap munasabah:

Sumber data baharu disemak
Jika diluluskan, ia menjadi tersedia kepada setiap model yang dinilai
Ini memastikan penilaian adil dan setara merentas model

Persekitaran data dinamik ini membolehkan model menggabungkan sumber maklumat baharu sambil mengekalkan penilaian yang konsisten dan setara dari model ke model.