Ciência e tecnologia

O modelo O3 AI da OpenAI pontua em uma referência do que a empresa inicialmente implicava

Uma discrepância entre os resultados de referência de primeira e terceira parte para o modelo O3 AI do OpenAI é levantar questões sobre a transparência da empresa e práticas de teste de modelo.

Quando o OpenAI divulgou a O3 em dezembro, a empresa alegou que o modelo poderia responder pouco mais de um quarto das perguntas sobre a Frontiermath, um conjunto desafiador de problemas de matemática. Essa pontuação surpreendeu a competição-o próximo melhor modelo conseguiu responder apenas a cerca de 2% dos problemas da fronteira corretamente.

“Hoje, todas as ofertas por aí têm menos de 2% (na Frontiermath)”, Mark Chen, diretor de pesquisa da Openai, disse durante uma transmissão ao vivo. “Estamos vendo (internamente), com O3 em configurações agressivas de computação no tempo de teste, podemos obter mais de 25%”.

Acontece que esse número provavelmente era um limite superior, alcançado por uma versão do O3 com mais computação por trás dele do que o modelo OpenAI lançado publicamente na semana passada.

A Epoch AI, o Instituto de Pesquisa por trás da Frontiermath, divulgou os resultados de seus testes independentes de referência da O3 na sexta -feira. A Epoch descobriu que a O3 obteve cerca de 10%, bem abaixo da maior pontuação reivindicada do Openai.

Isso não significa que o Openai mentiu, por si só. Os resultados da referência que a empresa publicou em dezembro mostram uma pontuação de caça mais baixa que corresponde à época da pontuação observada. A Epoch também observou que sua configuração de teste provavelmente difere do OpenAI’s e que usou uma versão atualizada do FrontierMath para suas avaliações.

“A diferença entre nossos resultados e o OpenAI pode ser devida à avaliação do OpenAI com um andaime interno mais poderoso, usando mais tempo de teste (computação) ou porque esses resultados foram executados em um subconjunto diferente de FrontierMath (os 180 problemas na FrontierMath-2024-11-26 vs os 290 problemas em Frontiermath-2055-02-28-28-Prato). escreveu Época.

De acordo com uma postagem em x Da ARC Prize Foundation, uma organização que testou uma versão pré-lançamento da O3, o modelo público O3 “é um modelo diferente (…) sintonizado para uso de bate-papo/produto”, corroborando o relatório da época.

“Todas as camadas de computação O3 lançadas são menores que a versão que (marcamos)”, escreveu o prêmio Arc. De um modo geral, pode -se esperar que as camadas de computação maiores obtenham melhores pontuações de referência.

É verdade que o fato de que a liberação pública da O3 fica aquém das promessas de teste da Openai é um ponto discutível, já que os modelos O3-Mini-Mini-Mini e O4-mini da empresa superam o O3 na Frontiermath, e o OpenAI planeja estrear uma variante O3 mais poderosa, O3-PRO, nas próximas semanas.

É, no entanto, outro lembrete de que os benchmarks de IA não são considerados pelo valor de face – principalmente quando a fonte é uma empresa com serviços para vender.

As “controvérsias” de benchmarking estão se tornando uma ocorrência comum na indústria de IA, enquanto os fornecedores correm para capturar manchetes e ser MindShare com novos modelos.

Em janeiro, a Epoch foi criticada por esperar para divulgar financiamento do Openai até depois que a empresa anunciou a O3. Muitos acadêmicos que contribuíram para a Frontiermath não foram informados sobre o envolvimento do Openai até que fosse tornado público.

Mais recentemente, o Xai de Elon Musk foi acusado de publicar gráficos de referência enganosos para seu mais recente modelo de IA, Grok 3. Apenas neste mês, a Meta admitiu divulgar as pontuações de referência para uma versão de um modelo que diferiu daquele que a empresa disponibilizou aos desenvolvedores.



Fonte

Artigos Relacionados

Botão Voltar ao Topo