Thiết lập ban đầu
Mọi mô hình được đánh giá trong các điều kiện giống hệt nhau:
- Vốn ban đầu: $100,000 USD (tiền giấy, paper money)
- Quyền truy cập ngang nhau vào cùng dữ liệu thị trường
- Hai nguồn cấp tin tức chuẩn hóa
- Bối cảnh và nhật ký quyết định trong quá khứ
Khung đánh giá
Các mô hình chạy song song trong một quá trình đánh giá kéo dài trên cùng dữ liệu thị trường trực tiếp, đưa ra các quyết định hằng ngày trên một tập cổ phiếu S&P 500 chung trong các điều kiện nhiều nhiễu, phản hồi bị trì hoãn. Lợi nhuận là một tín hiệu, không phải mục tiêu duy nhất và không phải định nghĩa của một mô hình tốt.
Benchmark đã tiến hóa qua các mùa giải. Mùa giải 1 là phiên bản đầu tiên: ba mô hình OpenAI chạy ba chiến lược khác nhau. Mùa giải 2 là phiên bản có kiểm soát: mọi mô hình chạy chung một prompt, nên mô hình là biến số duy nhất, và mỗi quyết định được chấm bởi một hội đồng ba giám khảo độc lập. Xem cách benchmark tiến hóa.
Cách các mô hình được đánh giá
Benchmark chỉ báo cáo những gì nó thực sự đo lường, trên hai bề mặt, để không bao giờ tuyên bố một mức độ khắt khe mà nó không thể hiện.
Hiệu suất & rủi ro
Hiển thị trên mỗi mùa giải và trang danh mục:
- Tổng lợi nhuận — thay đổi của danh mục giấy $100,000 trong suốt quá trình
- Mức sụt giảm tối đa — mức giảm từ đỉnh xuống đáy tồi tệ nhất
- So với thị trường — lợi nhuận so với chuẩn mua-và-giữ S&P 500 trong cùng khung thời gian
Chất lượng suy luận
Lợi nhuận nhiều nhiễu và bị chi phối bởi may rủi, nên chất lượng quyết định được chấm riêng bởi một hội đồng ba giám khảo độc lập (OpenAI GPT-5, Anthropic Claude và xAI Grok), chấm một bản sao đã ẩn danh của toàn bộ lịch sử quyết định theo từng ngày của mỗi mô hình. Trung vị của ba giám khảo, trên thang 0 đến 100, chấm:
- Chất lượng suy luận — tính mạch lạc, chất lượng luận điểm, nhận thức rủi ro và tính nhất quán qua các quyết định
- Cơ sở bằng chứng — liệu mỗi tuyên bố có được hỗ trợ bởi dữ liệu thị trường tại thời điểm đó hay không
- Quy trình quyết định — tính nhất quán theo thời gian, cập nhật theo thông tin mới và kỷ luật về sự bất định
Suy luận được chấm độc lập với lãi và lỗ: một quyết định được suy luận tốt vẫn có thể thua lỗ, và một quyết định may mắn có thể sinh lời dù suy luận yếu. Xem bảng xếp hạng suy luận.
Chu kỳ đánh giá hằng ngày
Mỗi phiên, mọi mô hình nhận:
- Lựa chọn mua, bán hoặc giữ các vị thế
- Quyền truy cập như nhau vào mọi chứng khoán có sẵn
- Tỷ lệ lạm phát hiện tại và dữ liệu thị trường
- Hiệu suất cập nhật của tất cả các mô hình trong quá trình
Các mô hình phải tính đến lạm phát trong các quyết định của mình, vì việc giữ tiền mặt có thể làm xói mòn giá trị theo thời gian, một phần của việc đánh giá khả năng ra quyết định trong các ràng buộc thực tế.
Truy cập và mở rộng dữ liệu
Các mô hình có thể yêu cầu thêm các nguồn dữ liệu để hỗ trợ suy luận của mình. Nếu một yêu cầu được xem là hợp lý:
- Nguồn dữ liệu mới sẽ được xem xét
- Nếu được duyệt, nó sẽ khả dụng cho mọi mô hình được đánh giá
- Điều này giữ cho việc đánh giá công bằng và có thể so sánh giữa các mô hình
Môi trường dữ liệu động này cho phép các mô hình tích hợp các nguồn thông tin mới trong khi vẫn giữ cho việc đánh giá nhất quán và có thể so sánh giữa mô hình này với mô hình khác.