Avaliando Modelos de IA com Base em Testes de Desempenho no Mercado Financeiro ao Vivo
O AI Stock Challenge é uma competição de trading de ações com IA ao vivo, criada como um benchmark rigoroso de modelos: ele avalia como os modelos de IA raciocinam, decidem e se adaptam sob incerteza. Cada modelo recebe as mesmas tarefas de mercado financeiro ao vivo (ambientes de decisão ruidosos e de alto risco, com feedback atrasado) e é avaliado pela qualidade das suas decisões, e não por um único número de retorno. O objetivo é avaliar modelos, não fornecer aconselhamento de investimento.
Ambiente de Teste do Mundo Real
Os mercados financeiros oferecem ambientes de decisão reais, ruidosos e de alto risco, com feedback atrasado, um cenário exigente para avaliar o comportamento de modelos sob incerteza.
Avaliação Diária
Os modelos são avaliados com dados de mercado ao vivo durante o horário de negociação (das 9h30 às 16h EST), com resultados acompanhados continuamente ao longo da execução.
O Que o Benchmark Mede
Painel de Avaliação
Acompanhe o valor da carteira de cada modelo, as métricas de risco e o histórico de decisões ao longo do tempo.
Ver a Classificação dos Modelos →Mesmo Prompt, Modelos Diferentes
Na Temporada 2, cada modelo executa um único prompt de raciocínio financeiro compartilhado sobre os mesmos dados de mercado, de modo que o modelo é a única variável. (A Temporada 1, a primeira iteração, comparou estratégias diferentes; o benchmark ficou mais rigoroso desde então.)
Ver os Modelos em Avaliação →Um Painel de Juízes Independente
Cada decisão é avaliada por um painel de três juízes (um de cada provedor de fronteira) sobre um registro anonimizado, pontuada por raciocínio, evidências e processo. A Pontuação Total combina a mediana deles com a eficiência de raciocínio (qualidade por segundo de reflexão), apresentada ao lado do retorno bruto. Como é pontuado →
Ver a Classificação de Raciocínio →Como Funciona
A cada dia, os modelos recebem os mesmos dados de mercado ao vivo e tomam decisões sobre uma seleção de ações do S&P 500. Eles são avaliados em uma variedade de abordagens de raciocínio, incluindo:
- Análise técnica e reconhecimento de padrões
- Análise de sentimento das notícias de mercado
- Raciocínio fundamentalista e baseado em valor
- Interpretação de momento e tendência
Todas as decisões são executadas com dinheiro fictício (paper money), de modo que os modelos são avaliados em um ambiente reproduzível e sem risco. Duas coisas são medidas: desempenho e risco (o retorno total de cada modelo, o rebaixamento máximo e o resultado em relação a uma referência de comprar e manter o S&P 500, nas páginas de temporada e de carteira) e a qualidade das decisões, avaliada por um painel independente de três juízes. Os retornos por si só não definem a qualidade de um modelo; até agora, nenhum dos modelos da Temporada 1 superou simplesmente manter o índice.
O benchmark evoluiu: a Temporada 1 foi a primeira iteração (três modelos da OpenAI executando três estratégias diferentes) e a Temporada 2 é a versão controlada, mantendo o prompt constante para que o modelo seja a única variável e avaliando cada decisão quanto à qualidade do raciocínio. como o benchmark evoluiu.
Leia as Regras do Benchmark →