Ciência e tecnologia

O novo modelo do Anthropic se destaca no raciocínio e no planejamento – e tem as habilidades de Pokémon para provar isso

Anthrópica anunciou dois Novos modelos, Claude 4 Opus e Claude Sonnet 4, durante sua primeira conferência de desenvolvedores em São Francisco na quinta -feira. O par estará disponível imediatamente para pagar assinantes Claude.

Os novos modelos, que saltam da convenção de nomenclatura de 3,7 em linha reta para 4, têm vários pontos fortes, incluindo sua capacidade de raciocinar, planejar e lembrar o contexto das conversas por longos períodos de tempo, diz a empresa. Claude 4 Opus também é ainda melhor em jogar Pokémon do que seu antecessor.

“Foi capaz de trabalhar agente no Pokémon por 24 horas”, diz Mike Krieger, diretor de produtos da Anthrópica, em entrevista à Wired. Anteriormente, o mais longo que o modelo poderia jogar foi de apenas 45 minutos, acrescentou um porta -voz da empresa.

Alguns meses atrás, o Anthropic lançou um fluxo de Twitch chamado “Claude Plays Pokémon”, que mostra as habilidades de Claude 3.7 Sonnet no Pokémon Red Live. A demonstração deve mostrar como Claude é capaz de analisar o jogo e tomar decisões passo a passo, com uma direção mínima.

O líder por trás da pesquisa de Pokémon é David Hershey, membro da equipe técnica da Anthrópica. Em uma entrevista à Wired, Hershey diz que escolheu o Pokémon Red porque é “um playground simples”, o que significa que o jogo é baseado em turnos e não requer reações em tempo real, com as quais os modelos atuais do antropal lutam. Foi também o primeiro videogame que ele já jogou, no Game Boy original, depois de obtê -lo no Natal em 1997. “Ele tem um lugar bastante especial no meu coração”, diz Hershey.

O objetivo abrangente de Hershey com esta pesquisa foi estudar como Claude poderia ser usado como agente – trabalhando de forma independente para realizar tarefas complexas em nome de um usuário. Embora não esteja claro o que o conhecimento prévio Claude tem sobre os Pokémon a partir de seus dados de treinamento, seu prompt do sistema é mínimo por design: você é Claude, você está tocando Pokémon, aqui estão as ferramentas que você tem e pode pressionar botões na tela.

“Com o tempo, tenho passado e excluindo todas as coisas específicas de Pokémon que posso só porque acho realmente interessante ver o quanto o modelo pode descobrir por conta própria”, diz Hershey, acrescentando que espera construir um jogo que Claude nunca viu antes, a fim de testar realmente seus limites.

Quando Claude 3,7 soneto jogou o jogo, ele enfrentou alguns desafios: gastou “dezenas de horas“Preso em uma cidade e teve problemas para identificar personagens que não são do jogo, que atropelam drasticamente seu progresso no jogo. Com Claude 4 Opus, Hershey notou uma melhoria na memória de longo prazo de Claude, com a sensação de que ela se manifestou para que ele tenha a manutenção de um pokémon complexo. Depois de serem considerados, antes de serem seguidos, o que se mantinha a ser um dos dois dias de que ela se destacou. Sem feedback imediato, mostra um novo nível de coerência, o que significa que o modelo tem uma melhor habilidade permanecer no caminho certo.

“Esta é uma das minhas maneiras favoritas de conhecer um modelo. Como, é assim que eu entendo quais são seus pontos fortes, quais são suas fraquezas”, diz Hershey. “É a minha maneira de entender esse novo modelo que estamos prestes a lançar e como trabalhar com isso”.

Todo mundo quer um agente

A pesquisa de Pokémon da Anthrópica é uma nova abordagem para enfrentar um problema preexistente – como entendemos quais decisões uma IA está tomando ao abordar tarefas complexas e empurrá -la na direção certa?

A resposta a essa pergunta é parte integrante do avanço dos agentes de IA muito humorada do setor-ai que pode enfrentar tarefas complexas com a relativa independência. Em Pokémon, é importante que o modelo não perca o contexto ou “esqueça” a tarefa em questão. Isso também se aplica aos agentes de IA solicitados a automatizar um fluxo de trabalho – mesmo que leva centenas de horas.

Fonte

Artigos Relacionados

Botão Voltar ao Topo