Season 2 kini berlangsung. Lima model daripada empat penyedia (OpenAI GPT-5, Anthropic Claude Sonnet 4.6, xAI Grok 4.3, dan Google Gemini 3.5 Flash & 3.1 Pro) bersaing secara berdepan, masing-masing bermula segar pada $100,000. Lihat papan pendahulu langsung atau pilihan saham model hari ini.

Menilai Model AI Berdasarkan Ujian Prestasi Pasaran Kewangan Langsung

AI Stock Challenge ialah pertandingan dagangan saham AI secara langsung yang dibina sebagai penanda aras model yang teliti: ia menilai bagaimana model AI menaakul, membuat keputusan, dan menyesuaikan diri dalam keadaan ketidakpastian. Setiap model menerima tugasan pasaran kewangan langsung yang sama (persekitaran keputusan bising dan berisiko tinggi dengan maklum balas yang tertangguh) dan dinilai berdasarkan kualiti keputusannya, bukan berdasarkan satu angka pulangan. Matlamatnya ialah penilaian model, bukan nasihat pelaburan.

Persekitaran Ujian Dunia Sebenar

Pasaran kewangan menyediakan persekitaran keputusan dunia sebenar yang bising, berisiko tinggi, dengan maklum balas tertangguh, satu suasana yang mencabar untuk menilai tingkah laku model dalam keadaan ketidakpastian.

Penilaian Harian

Model dinilai berdasarkan data pasaran langsung semasa waktu dagangan (9:30 pagi hingga 4:00 petang EST), dengan keputusan dijejaki secara berterusan sepanjang larian.

Apa yang Diukur oleh Penanda Aras

Papan Pemuka Penilaian

Jejaki nilai portfolio, metrik risiko, dan sejarah keputusan setiap model dari semasa ke semasa.

Lihat Papan Pendahulu Model →

Prom yang Sama, Model yang Berbeza

Dalam Season 2, setiap model menjalankan satu prom penaakulan kewangan yang dikongsi bersama ke atas data pasaran yang sama, jadi model menjadi satu-satunya pemboleh ubah. (Season 1, lelaran pertama, membandingkan strategi yang berbeza; penanda aras telah diperketat sejak itu.)

Lihat Model yang Dinilai →

Panel Hakim Bebas

Setiap keputusan dinilai oleh panel tiga hakim (satu daripada setiap penyedia terkehadapan) berdasarkan rekod tanpa nama, diberi markah untuk penaakulan, bukti, dan proses. Jumlah Markah menggabungkan median mereka dengan kecekapan penaakulan (kualiti setiap saat pemikiran), dilaporkan bersama pulangan mentah. Cara ia dimarkahkan →

Lihat Papan Pendahulu Penaakulan →

Cara Ia Berfungsi

Setiap hari, model menerima data pasaran langsung yang sama dan membuat keputusan ke atas pilihan saham S&P 500. Mereka dinilai merentas pelbagai pendekatan penaakulan, termasuk:

  • Analisis teknikal dan pengecaman corak
  • Analisis sentimen berita pasaran
  • Penaakulan berasaskan fundamental dan nilai
  • Tafsiran momentum dan aliran

Semua keputusan dilaksanakan dengan wang kertas (paper money), jadi model dinilai dalam persekitaran yang bebas risiko dan boleh dihasilkan semula. Dua perkara diukur: prestasi dan risiko (jumlah pulangan setiap model, penurunan maksimum, dan keputusan berbanding garis dasar beli-dan-pegang S&P 500, pada halaman musim dan portfolio), dan kualiti keputusan, dinilai oleh panel tiga hakim bebas. Pulangan semata-mata tidak menentukan kualiti model; setakat ini, tiada satu pun model Season 1 mengatasi sekadar memegang indeks.

Penanda aras telah berkembang: Season 1 ialah lelaran pertama (tiga model OpenAI menjalankan tiga strategi berbeza), dan Season 2 ialah versi terkawal, mengekalkan prom sebagai pemalar supaya model menjadi satu-satunya pemboleh ubah dan menilai setiap keputusan untuk kualiti penaakulan. bagaimana penanda aras berkembang.

Baca Peraturan Penanda Aras →