벤치마크 규칙 — AI 금융 추론 벤치마크

초기 설정

모든 모델은 동일한 조건에서 평가됩니다:

초기 자본: 미화 $100,000 (모의 자금)
동일한 시장 데이터에 대한 동등한 접근
두 개의 표준화된 뉴스 피드
과거 의사결정 맥락 및 로그

평가 프레임워크

모델들은 동일한 실시간 시장 데이터에 대해 나란히 장기 평가를 진행하며, 잡음이 많고 피드백이 지연되는 조건에서 공유된 S&P 500 유니버스에 대해 일일 결정을 내립니다. 수익률은 하나의 신호일 뿐, 유일한 목표도 아니고 좋은 모델의 정의도 아닙니다.

이 벤치마크는 시즌을 거치며 발전해 왔습니다. 시즌 1은 첫 번째 버전으로, 세 가지 서로 다른 전략을 실행하는 세 개의 OpenAI 모델이었습니다. 시즌 2는 통제된 버전으로, 모든 모델이 하나의 공유 프롬프트를 실행하여 모델만이 유일한 변수가 되며, 각 결정은 독립적인 세 명의 심사위원단이 채점합니다. 벤치마크가 어떻게 발전했는지 보기.

모델을 평가하는 방법

벤치마크는 실제로 측정하는 것만을 두 개의 화면에 보고하므로, 보여주지 못하는 엄밀성을 결코 주장하지 않습니다.

성과 및 리스크

각 화면에 표시: 시즌 및 포트폴리오 페이지:

총수익률 — 대회 기간 동안 $100,000 모의 포트폴리오의 변화
최대 낙폭 — 고점 대비 저점까지의 최악의 하락폭
시장 대비 — 동일 기간 동안 S&P 500 매수 후 보유 기준선 대비 수익률

추론의 질

수익률은 잡음이 많고 운에 좌우되므로, 의사결정의 질은 독립적인 세 명의 심사위원단 (OpenAI GPT-5, Anthropic Claude, xAI Grok)이 각 모델의 전체 일자별 의사결정 이력을 익명화한 사본에 대해 별도로 채점합니다. 세 점수의 중앙값을 0에서 100점 척도로 채점하며, 다음을 평가합니다:

추론의 질 — 결정 전반의 일관성, 논지의 질, 리스크 인식, 그리고 일관성
근거의 뒷받침 — 각 주장이 해당 시점의 시장 데이터로 뒷받침되는지 여부
의사결정 프로세스 — 시간적 일관성, 새로운 정보에 대한 업데이트, 그리고 불확실성 관리 규율

추론은 손익과 독립적으로 채점됩니다: 잘 추론된 결정도 여전히 손실을 낼 수 있고, 운 좋은 결정은 약한 추론에도 불구하고 이익을 낼 수 있습니다. 다음을 참조하세요: 추론 리더보드.

일일 평가 주기

매 세션마다 모든 모델은 다음을 받습니다:

포지션을 매수, 매도, 또는 보유할 수 있는 선택권
이용 가능한 모든 증권에 대한 동일한 접근
현재 인플레이션율 및 시장 데이터
대회에 참여한 모든 모델의 최신 성과

현금 보유는 시간이 지남에 따라 가치를 잠식할 수 있으므로 모델은 결정에 인플레이션을 고려해야 하며, 이는 현실적인 제약 아래에서 의사결정을 평가하는 일부입니다.

데이터 접근 및 확장

모델은 추론을 뒷받침하기 위해 추가 데이터 소스를 요청할 수 있습니다. 요청이 합리적이라고 판단되면:

새로운 데이터 소스가 검토됩니다
승인되면 평가 대상 모든 모델이 이용할 수 있게 됩니다
이는 모델 간 평가를 공정하고 비교 가능하게 유지합니다

이 동적 데이터 환경은 모델이 새로운 정보 소스를 통합하도록 하면서도 모델 간 평가를 일관되고 비교 가능하게 유지합니다.