Đánh giá các mô hình AI dựa trên các bài kiểm tra hiệu suất thị trường tài chính trực tiếp

AI Stock Challenge là một cuộc thi giao dịch cổ phiếu bằng AI trực tiếp được xây dựng như một benchmark khắt khe cho mô hình: nó đánh giá cách các mô hình AI suy luận, ra quyết định và thích ứng trong điều kiện bất định. Mỗi mô hình nhận cùng các nhiệm vụ thị trường tài chính trực tiếp (những môi trường ra quyết định nhiều nhiễu, rủi ro cao với phản hồi bị trì hoãn) và được đánh giá dựa trên chất lượng các quyết định của nó, chứ không dựa trên một con số lợi nhuận đơn lẻ. Mục tiêu là đánh giá mô hình, không phải lời khuyên đầu tư.

Môi trường kiểm tra thực tế

Thị trường tài chính cung cấp những môi trường ra quyết định thực tế, nhiều nhiễu, rủi ro cao với phản hồi bị trì hoãn, một bối cảnh đầy thách thức để đánh giá hành vi của mô hình trong điều kiện bất định.

Đánh giá hằng ngày

Các mô hình được đánh giá trên dữ liệu thị trường trực tiếp trong giờ giao dịch (9:30 sáng đến 4:00 chiều EST), với kết quả được theo dõi liên tục trong suốt quá trình.

Xem phân tích thị trường hôm nay Xem bảng xếp hạng mô hình

Benchmark đo lường điều gì

Bảng điều khiển đánh giá

Theo dõi giá trị danh mục, các chỉ số rủi ro và lịch sử quyết định của từng mô hình theo thời gian.

Xem bảng xếp hạng mô hình →

Cùng một prompt, khác mô hình

Ở Mùa giải 2, mọi mô hình chạy chung một prompt suy luận tài chính trên cùng dữ liệu thị trường, nên mô hình là biến số duy nhất. (Mùa giải 1, phiên bản đầu tiên, so sánh các chiến lược khác nhau; benchmark đã được thắt chặt kể từ đó.)

Xem các mô hình đang được đánh giá →

Một hội đồng giám khảo độc lập

Mọi quyết định được chấm điểm bởi một hội đồng gồm ba giám khảo (mỗi giám khảo từ một nhà cung cấp tiên phong) trên hồ sơ đã ẩn danh, chấm theo suy luận, bằng chứng và quy trình. Tổng điểm kết hợp trung vị của họ với hiệu suất suy luận (chất lượng trên mỗi giây suy nghĩ), được báo cáo kèm theo lợi nhuận thô. Cách chấm điểm →

Xem bảng xếp hạng suy luận →

Cách thức hoạt động

Mỗi ngày, các mô hình nhận cùng dữ liệu thị trường trực tiếp và ra quyết định trên một số cổ phiếu S&P 500 được chọn. Chúng được đánh giá qua nhiều cách tiếp cận suy luận, bao gồm:

Phân tích kỹ thuật và nhận diện mẫu hình
Phân tích tâm lý từ tin tức thị trường
Suy luận cơ bản và dựa trên giá trị
Diễn giải động lượng và xu hướng

Mọi quyết định đều được thực hiện bằng tiền giấy (paper money), nên các mô hình được đánh giá trong một môi trường không rủi ro, có thể tái lập. Hai điều được đo lường: hiệu suất và rủi ro (tổng lợi nhuận, mức sụt giảm tối đa và kết quả so với chuẩn mua-và-giữ S&P 500 của mỗi mô hình, trên các trang mùa giải và danh mục), và chất lượng quyết định, được chấm bởi một hội đồng ba giám khảo độc lập. Chỉ riêng lợi nhuận không định nghĩa chất lượng của mô hình; cho đến nay, chưa có mô hình nào ở Mùa giải 1 vượt qua việc chỉ đơn giản nắm giữ chỉ số.

Benchmark đã tiến hóa: Mùa giải 1 là phiên bản đầu tiên (ba mô hình OpenAI chạy ba chiến lược khác nhau), và Mùa giải 2 là phiên bản có kiểm soát, giữ prompt cố định để mô hình là biến số duy nhất và chấm mọi quyết định về chất lượng suy luận. cách benchmark tiến hóa.

Đọc luật benchmark →