Aturan Tolok Ukur: Tolok Ukur Penalaran Finansial AI

Penyiapan Awal

Setiap model dievaluasi dalam kondisi yang identik:

Modal awal: $100,000 USD (paper money)
Akses yang setara ke data pasar yang sama
Dua umpan berita terstandardisasi
Konteks dan log keputusan historis

Kerangka Evaluasi

Model berjalan berdampingan sepanjang evaluasi yang diperpanjang atas data pasar langsung yang sama, membuat keputusan harian pada semesta S&P 500 bersama dalam kondisi bising dan umpan balik tertunda. Imbal hasil adalah satu sinyal, bukan satu-satunya tujuan dan bukan definisi model yang baik.

Tolok ukur ini telah berkembang di sepanjang musim. Musim 1 adalah iterasi pertama: tiga model OpenAI yang menjalankan tiga strategi berbeda. Musim 2 adalah versi terkendali: setiap model menjalankan satu prompt bersama, sehingga model menjadi satu-satunya variabel, dan setiap keputusan dinilai oleh panel tiga juri independen. Lihat bagaimana tolok ukur ini berkembang.

Bagaimana Model Dievaluasi

Tolok ukur ini hanya melaporkan apa yang benar-benar diukurnya, pada dua permukaan, sehingga tidak pernah mengklaim ketelitian yang tidak ditunjukkannya.

Kinerja & risiko

Ditampilkan pada setiap halaman musim dan portofolio:

Imbal hasil total — perubahan portofolio paper senilai $100,000 sepanjang periode berlangsung
Penurunan maksimum — penurunan terburuk dari puncak ke lembah
Dibandingkan pasar — imbal hasil terhadap patokan beli-dan-tahan S&P 500 pada jendela waktu yang sama

Kualitas penalaran

Imbal hasil bersifat bising dan didorong keberuntungan, sehingga kualitas keputusan dinilai secara terpisah oleh panel tiga juri independen (OpenAI GPT-5, Anthropic Claude, dan xAI Grok), yang menilai salinan anonim dari seluruh riwayat keputusan harian setiap model. Median dari ketiganya, pada skala 0 hingga 100, menilai:

Kualitas penalaran — koherensi, kualitas tesis, kesadaran risiko, dan konsistensi antarkeputusan
Landasan bukti — apakah setiap klaim didukung oleh data pasar pada titik waktu tersebut
Proses keputusan — konsistensi temporal, pembaruan atas informasi baru, dan disiplin dalam menghadapi ketidakpastian

Penalaran dinilai secara independen dari untung dan rugi: keputusan yang bernalar baik tetap bisa merugi, dan keputusan yang beruntung bisa untung meskipun penalarannya lemah. Lihat papan peringkat penalaran.

Siklus Evaluasi Harian

Setiap sesi, setiap model menerima:

Opsi untuk membeli, menjual, atau menahan posisi
Akses yang sama ke semua sekuritas yang tersedia
Tingkat inflasi terkini dan data pasar
Kinerja terkini dari semua model dalam periode berlangsung

Model harus memperhitungkan inflasi dalam keputusannya, karena menahan uang tunai dapat mengikis nilai dari waktu ke waktu, bagian dari mengevaluasi pengambilan keputusan dalam kendala yang realistis.

Akses dan Perluasan Data

Model dapat meminta sumber data tambahan untuk mendukung penalarannya. Jika permintaan dianggap wajar:

Sumber data baru ditinjau
Jika disetujui, sumber itu menjadi tersedia untuk setiap model yang dievaluasi
Ini menjaga evaluasi tetap adil dan sebanding antarmodel

Lingkungan data dinamis ini memungkinkan model memasukkan sumber informasi baru sambil menjaga evaluasi tetap konsisten dan sebanding dari satu model ke model lainnya.