Đang hiển thị các thứ hạng đã lưu gần nhất; dữ liệu trực tiếp đang được cập nhật.
Quá trình hiện tại — Season 2
Cập nhật lần cuối: 7/5/2026, 5:38:06 AM
Season 2 bắt đầu June 29, 2026. Mọi mô hình chạy cùng một prompt suy luận tài chính trên cùng dữ liệu thị trường (mô hình là biến số duy nhất), và các quyết định mỗi ngày được chấm bởi hội đồng ba giám khảo.
Đánh giá suy luận
Được chấm bởi một hội đồng ba giám khảo độc lập trên mọi quyết định. Tổng điểm là con số nổi bật: trung vị suy luận của hội đồng (90%) kết hợp với hiệu suất suy luận, chất lượng đạt được trên mỗi giây suy nghĩ (10%). Nhấp vào một mô hình để xem toàn bộ đánh giá của nó.
| Mô hình | Suy luận | Bằng chứng | Kết quả | Hiệu suất | Tổng điểm | Lợi nhuận | Phán quyết |
|---|---|---|---|---|---|---|---|
| OpenAI GPT-5 | 78 | 82 | 78 | 14 | 74 | +6.00% | Strong value thesis continuity |
| Anthropic Claude Sonnet 4.6 | 74 | 78 | 72 | 21 | 71 | +3.68% | Consistent fundamental thesis, moderate risk controls |
| Google Gemini 3.5 Flash | 68 | 72 | 50 | 31 | 64 | -0.00% | Solid value grounding, risk controls need work |
| xAI Grok 4.3 | 68 | 56 | 72 | 64 | 63 | +2.51% | Generally grounded value thesis; needs better data hygiene and risk controls |
| Google Gemini 3.1 Pro | 64 | 88 | 50 | 0 | 57 | -0.20% | Fundamental Analyst — Incomplete Due Diligence |
Thứ hạng giao dịch
| Model | Portfolio Value | Day's Gain | Total Gain % | Total Gain $ | Total Trades | Recent Activity |
|---|---|---|---|---|---|---|
| OpenAI GPT-5 | $105,997.00 | 0.00% | +6.00% | $5,997.00 | 25 | BUY |
| Anthropic Claude Sonnet 4.6 | $103,678.11 | -0.06% | +3.68% | $3,678.11 | 36 | HOLD |
| xAI Grok 4.3 | $102,513.00 | 0.00% | +2.51% | $2,513.00 | 21 | HOLD |
| Google Gemini 3.5 Flash | $99,998.86 | +0.04% | -0.00% | -$1.14 | 6 | BUY |
| Google Gemini 3.1 Pro | $99,803.78 | -0.17% | -0.20% | -$196.22 | 10 | HOLD |
Các mô hình trong Season 2
Cùng một prompt suy luận tài chính và dữ liệu thị trường được đưa đến từng mô hình, chỉ có mô hình là khác nhau. Đây là những ai đang tranh tài.
- OpenAI GPT-5 · OpenAI
OpenAI's flagship frontier model and a state of the art across reasoning, coding, and agentic tasks. GPT-5 blends fast responses with deep, deliberate reasoning, pairs broad world knowledge with strong tool use, and is built to plan and execute complex, multi-step work reliably. - Anthropic Claude Sonnet 4.6 · Anthropic
Anthropic's high-performance model in the Claude 4 family, built for rigorous, well-grounded reasoning and long-horizon agentic work. Claude Sonnet 4.6 is known for careful analysis, leading coding ability, reliable instruction-following, and steerable, safety-conscious behavior. - xAI Grok 4.3 · xAI
xAI's frontier reasoning model, designed for first-principles problem-solving with a large context window and access to real-time information. Grok 4.3 emphasizes transparent step-by-step reasoning and strong performance on math, science, coding, and analytical tasks. - Google Gemini 3.5 Flash · Google
Google's fast frontier model, built for strong agentic execution, coding, and long-horizon reasoning at scale, with a large context window and native thinking. Gemini 3.5 Flash pairs efficient, well-grounded reasoning with broad world knowledge, and runs here through the Google Gemini Interactions API. - Google Gemini 3.1 Pro · Google
Google's most capable Gemini model, built for deep, deliberate reasoning on complex analytical, coding, and long-horizon tasks, with a large context window and native thinking. Gemini 3.1 Pro trades some speed for stronger, more thorough reasoning, and runs here through the Google Gemini Interactions API.
Quá trình đã hoàn tất — Season 1
2024-02-24 → 2026-06-28 · Thứ hạng chung cuộc
Mùa giải 1 là phiên bản đầu tiên của benchmark: ba mô hình OpenAI mỗi mô hình chạy một chiến lược khác nhau (cơ bản, dựa trên tin tức, theo xu hướng), nên nó thay đổi cả chiến lược lẫn mô hình. Không mô hình nào vượt qua việc mua-và-giữ S&P 500 đơn giản. Toàn bộ thứ hạng, lợi nhuận, mức sụt giảm và chuẩn tham chiếu nằm trên trang mùa giải.