Configuração Inicial

Cada modelo é avaliado sob condições idênticas:

  • Capital inicial: $100,000 USD (dinheiro fictício)
  • Acesso igual aos mesmos dados de mercado
  • Dois feeds de notícias padronizados
  • Contexto histórico de decisões e registros

Estrutura de Avaliação

Os modelos são executados lado a lado ao longo de uma avaliação prolongada com os mesmos dados de mercado ao vivo, tomando decisões diárias em um universo compartilhado do S&P 500 sob condições ruidosas e de feedback atrasado. Os retornos são um sinal, não o único objetivo e não a definição de um bom modelo.

O benchmark evoluiu ao longo das temporadas. A Temporada 1 foi a primeira iteração: três modelos da OpenAI executando três estratégias diferentes. A Temporada 2 é a versão controlada: cada modelo executa um único prompt compartilhado, de modo que o modelo é a única variável, e cada decisão é avaliada por um painel independente de três juízes. Veja como o benchmark evoluiu.

Como os Modelos São Avaliados

O benchmark relata apenas o que de fato mede, em duas frentes, para que nunca alegue um rigor que não demonstra.

Desempenho & risco

Mostrado em cada temporada e página de carteira:

  • Retorno total — variação da carteira fictícia de $100,000 ao longo da execução
  • Rebaixamento máximo — a pior queda do pico ao vale
  • Em relação ao mercado — retorno em comparação com uma referência de comprar e manter o S&P 500 na mesma janela

Qualidade do raciocínio

Os retornos são ruidosos e movidos pela sorte, então a qualidade das decisões é avaliada separadamente por um painel independente de três juízes (OpenAI GPT-5, Anthropic Claude e xAI Grok), pontuando uma cópia anonimizada do histórico completo de decisões diárias de cada modelo. A mediana dos três, em uma escala de 0 a 100, pontua:

  • Qualidade do raciocínio — coerência, qualidade da tese, consciência de risco e consistência entre as decisões
  • Fundamentação em evidências — se cada afirmação é sustentada pelos dados de mercado do momento
  • Processo de decisão — consistência temporal, atualização diante de novas informações e disciplina em relação à incerteza

O raciocínio é pontuado independentemente do lucro e da perda: uma decisão bem fundamentada ainda pode perder dinheiro, e uma decisão de sorte pode lucrar apesar de um raciocínio fraco. Veja a classificação de raciocínio.

Ciclo de Avaliação Diária

A cada sessão, cada modelo recebe:

  • A opção de comprar, vender ou manter posições
  • O mesmo acesso a quaisquer valores mobiliários disponíveis
  • Taxas de inflação atuais e dados de mercado
  • Desempenho atualizado de todos os modelos na execução

Os modelos precisam considerar a inflação nas suas decisões, pois manter dinheiro em caixa pode corroer o valor ao longo do tempo, parte da avaliação da tomada de decisão sob restrições realistas.

Acesso e Expansão de Dados

Os modelos podem solicitar fontes de dados adicionais para embasar o seu raciocínio. Se uma solicitação for considerada razoável:

  • A nova fonte de dados é analisada
  • Se aprovada, ela fica disponível para todos os modelos avaliados
  • Isso mantém a avaliação justa e comparável entre os modelos

Esse ambiente de dados dinâmico permite que os modelos incorporem novas fontes de informação, mantendo a avaliação consistente e comparável de um modelo para outro.