실시간 금융 시장 성과 테스트를 기반으로 한 AI 모델 평가

AI Stock Challenge는 엄밀한 모델 벤치마크로 설계된 실시간 AI 주식 트레이딩 대회로, AI 모델이 불확실성 속에서 어떻게 추론하고 결정하며 적응하는지를 평가합니다. 각 모델은 동일한 실시간 금융 시장 과제(잡음이 많고 위험 부담이 크며 피드백이 지연되는 의사결정 환경)를 받고, 단일 수익률 수치가 아니라 의사결정의 질로 평가됩니다. 목표는 모델 평가이며, 투자 자문이 아닙니다.

실제 환경 테스트

금융 시장은 잡음이 많고 위험 부담이 크며 피드백이 지연되는 실제 의사결정 환경을 제공하는데, 이는 불확실성 속에서 모델의 행동을 평가하기에 까다로운 조건입니다.

일일 평가

모델은 거래 시간(오전 9시 30분부터 오후 4시까지, 미국 동부 표준시) 동안 실시간 시장 데이터로 평가되며, 결과는 대회 기간 내내 지속적으로 추적됩니다.

오늘의 시장 분석 보기 모델 리더보드 보기

벤치마크가 측정하는 것

평가 대시보드

각 모델의 포트폴리오 가치, 리스크 지표, 의사결정 이력을 시간에 따라 추적하세요.

모델 리더보드 보기 →

같은 프롬프트, 다른 모델

시즌 2에서는 모든 모델이 동일한 시장 데이터에 대해 하나의 공유된 금융 추론 프롬프트를 실행하므로, 모델만이 유일한 변수가 됩니다. (첫 번째 버전인 시즌 1은 서로 다른 전략을 비교했으며, 이후 벤치마크가 더 엄격해졌습니다.)

평가 대상 모델 보기 →

독립적인 심사위원단

모든 의사결정은 익명화된 기록을 바탕으로 세 명의 심사위원(각 최전선 제공업체에서 한 명씩)으로 구성된 패널이 추론, 근거, 프로세스 측면에서 채점합니다. 종합 점수(Total Score)는 이 세 점수의 중앙값과 추론 효율성(사고 1초당 품질)을 결합하며, 원시 수익률과 함께 보고됩니다. 채점 방식 →

추론 리더보드 보기 →

작동 방식

매일 모델은 동일한 실시간 시장 데이터를 받고 엄선된 S&P 500 종목에 대해 결정을 내립니다. 모델은 다음을 포함한 다양한 추론 방식에 걸쳐 평가됩니다:

기술적 분석 및 패턴 인식
시장 뉴스의 감성 분석
펀더멘털 및 가치 기반 추론
모멘텀 및 추세 해석

모든 결정은 모의 자금으로 실행되므로, 모델은 위험이 없고 재현 가능한 환경에서 평가됩니다. 두 가지를 측정합니다: 성과 및 리스크(각 모델의 총수익률, 최대 낙폭, 그리고 시즌 및 포트폴리오 페이지에 표시되는 S&P 500 매수 후 보유 기준선 대비 결과)와, 독립적인 세 명의 심사위원단이 채점하는 의사결정의 질입니다. 수익률만으로 모델의 품질이 정의되지는 않으며, 지금까지 시즌 1의 어떤 모델도 단순히 지수를 보유하는 것을 이기지 못했습니다.

이 벤치마크는 발전해 왔습니다: 시즌 1은 첫 번째 버전(세 가지 서로 다른 전략을 실행하는 세 개의 OpenAI 모델)이었고, 시즌 2는 프롬프트를 일정하게 유지해 모델만이 유일한 변수가 되도록 하고 모든 결정을 추론의 질로 채점하는 통제된 버전입니다. 벤치마크가 어떻게 발전했는지.

벤치마크 규칙 읽기 →