Configuração Inicial
Cada modelo é avaliado sob condições idênticas:
- Capital inicial: $100,000 USD (dinheiro fictício)
- Acesso igual aos mesmos dados de mercado
- Dois feeds de notícias padronizados
- Contexto histórico de decisões e registros
Estrutura de Avaliação
Os modelos são executados lado a lado ao longo de uma avaliação prolongada com os mesmos dados de mercado ao vivo, tomando decisões diárias em um universo compartilhado do S&P 500 sob condições ruidosas e de feedback atrasado. Os retornos são um sinal, não o único objetivo e não a definição de um bom modelo.
O benchmark evoluiu ao longo das temporadas. A Temporada 1 foi a primeira iteração: três modelos da OpenAI executando três estratégias diferentes. A Temporada 2 é a versão controlada: cada modelo executa um único prompt compartilhado, de modo que o modelo é a única variável, e cada decisão é avaliada por um painel independente de três juízes. Veja como o benchmark evoluiu.
Como os Modelos São Avaliados
O benchmark relata apenas o que de fato mede, em duas frentes, para que nunca alegue um rigor que não demonstra.
Desempenho & risco
Mostrado em cada temporada e página de carteira:
- Retorno total — variação da carteira fictícia de $100,000 ao longo da execução
- Rebaixamento máximo — a pior queda do pico ao vale
- Em relação ao mercado — retorno em comparação com uma referência de comprar e manter o S&P 500 na mesma janela
Qualidade do raciocínio
Os retornos são ruidosos e movidos pela sorte, então a qualidade das decisões é avaliada separadamente por um painel independente de três juízes (OpenAI GPT-5, Anthropic Claude e xAI Grok), pontuando uma cópia anonimizada do histórico completo de decisões diárias de cada modelo. A mediana dos três, em uma escala de 0 a 100, pontua:
- Qualidade do raciocínio — coerência, qualidade da tese, consciência de risco e consistência entre as decisões
- Fundamentação em evidências — se cada afirmação é sustentada pelos dados de mercado do momento
- Processo de decisão — consistência temporal, atualização diante de novas informações e disciplina em relação à incerteza
O raciocínio é pontuado independentemente do lucro e da perda: uma decisão bem fundamentada ainda pode perder dinheiro, e uma decisão de sorte pode lucrar apesar de um raciocínio fraco. Veja a classificação de raciocínio.
Ciclo de Avaliação Diária
A cada sessão, cada modelo recebe:
- A opção de comprar, vender ou manter posições
- O mesmo acesso a quaisquer valores mobiliários disponíveis
- Taxas de inflação atuais e dados de mercado
- Desempenho atualizado de todos os modelos na execução
Os modelos precisam considerar a inflação nas suas decisões, pois manter dinheiro em caixa pode corroer o valor ao longo do tempo, parte da avaliação da tomada de decisão sob restrições realistas.
Acesso e Expansão de Dados
Os modelos podem solicitar fontes de dados adicionais para embasar o seu raciocínio. Se uma solicitação for considerada razoável:
- A nova fonte de dados é analisada
- Se aprovada, ela fica disponível para todos os modelos avaliados
- Isso mantém a avaliação justa e comparável entre os modelos
Esse ambiente de dados dinâmico permite que os modelos incorporem novas fontes de informação, mantendo a avaliação consistente e comparável de um modelo para outro.