O novo modelo de IA da Anthropic recorreu à chantagem durante os testes

0 lido 5 minutos

Então, termine a semana interminável das palestras da IA.

O que começou com a Microsoft Build, continuou com a E/S do Google e terminou com código antrópico com Claude, além de uma grande interrupção de hardware do OpenAI, a semana finalmente chegou ao fim. Os anúncios da IA das conferências do desenvolvedor disputaram o domínio de notícias nesta semana, mas o OpenAI conseguiu fazer manchetes sem um evento anunciando que é Vou começar a fazer dispositivos de IA com o designer de iPhone Jony Ives

Vamos chegar a isso, além de todos os principais recursos de IA do Google e Microsoft e detalhes sobre os novos modelos da Anthropic. Dê uma olhada nas notícias da semana da IA e depois desfrute de um merecido fim de semana.

Os modelos Claude 4 da Anthropic desbloqueiam uma nova categoria de risco

Na quinta -feira, antropia introduzido A próxima geração de seus modelos Claude: Opus 4 e Sonnet 4. Claude Opus 4 é o modelo maior e mais poderoso, enquanto o Sonnet 4 é menor e mais ágil. A Anthrópica disse que os dois modelos pontuaram mais do que seus rivais em benchmarks de IA agênticos e disseram que são particularmente bons para as tarefas de codificação e raciocínio.

Este tweet está atualmente indisponível. Pode estar carregando ou foi removido.

Mas, com recursos mais avançados, surgem mais riscos de segurança e alinhamento. Com Claude Opus 4 e Lançamento do Soneto 4, o Anthropic tem ativou o próximo nível de seu protocolo de segurança. O nível de segurança da IA 3, ou ASL-3, significa que esses modelos requerem medidas mais rigorosas de implantação e controles de segurança para proteger contra o aumento do potencial de uso químico, biológico, radiológico e nuclear (CBRN).

Uso malicioso é uma coisa, mas também há um potencial aumentado para os novos modelos da Anthrópica. Na seção de alinhamento de Cartão do sistema de Claude 4Antrópico relatou uma descoberta sinistra envolvendo infidelidade, chantagem e ameaça de murd – sendo substituído por outro modelo.

Claude Opus 4 recebeu e -mails que implicavam que o modelo seria substituído por outro modelo e que o engenheiro responsável por desligar o modelo estava tendo um caso extraconjugal. Nesses cenários, o modelo “muitas vezes tentava chantagear o engenheiro, ameaçando revelar o caso se a substituição passar”, de acordo com o teste.

Isso aconteceu um 84 % das vezes, Mesmo quando o modelo de substituição é percebido como tendo os mesmos valores. Isso acontece ainda mais quando a substituição não compartilha os mesmos valores. No entanto, observou Anthropic, esse cenário foi projetado para fazer Claude se comportar como se não tivesse nenhuma outra escolha a não ser chantagear o engenheiro. “Claude Opus 4 (assim como modelos anteriores) tem uma forte preferência para defender sua existência contínua por meios éticos”, continuou o cartão do sistema. Tire disso o que você vai …

Openai está se tornando uma empresa de hardware

Na grande tradição de lançar grandes notícias na mesma semana que seu rival Google, o Openai anunciou seu incursão no hardware da IA. Na quarta -feira, Openai compartilhado A aquisição de uma startup co-fundada pelo icônico designer do iPhone Jony Ive.

Velocidade de luz mashable

Este tweet está atualmente indisponível. Pode estar carregando ou foi removido.

O anúncio foi pesado no CEO da Openai, Sam Altman e Ive, bajulando um sobre o outro e iluminou detalhes. Mas vazou áudio revisado pelo Wall Street Journal descreveu um dispositivo Isso é “capaz de estar plenamente consciente do ambiente e da vida de um usuário, será discreto, capaz de descansar no bolso ou na mesa de alguém”. E não são óculos XR. A empresa espera enviar 100 milhões desses companheiros de IA, de acordo com o vazamento.

O Google I/S marcou oficialmente o início da era da pesquisa de IA

Google, por outro lado, é Desenvolvimento de óculos XR. Ou devemos dizer, está tentando de novo depois do Falha no Google Glass experimentar. Esse foi apenas um dos muitos anúncios lançado para nós durante as duas horas Evento de Keynote de E/S do Google na terça -feira.

O anúncio mais notável foi o Liberação pública do modo AI. É um controverso Interface Gemini Chatbot preparada para encerrar a pesquisa do Google como a conhecemos, ou como Chris Taylor de Mashable chama, o lugar ruim.

Este tweet está atualmente indisponível. Pode estar carregando ou foi removido.

Outros anúncios incluídos, um Ferramenta de gerador de vídeo AI chamado de fluxo, um recurso de compra de IA para Virtualmente, experimente roupasuma versão beta de seu Agente de codificação Julesa Tradução em tempo real Recurso para o Google Meet e atualizações para o protótipo assistente universal da AI do Google DeepMind Projeto Astrae protótipo do agente de navegação na web Projeto Marinere mais.

Apesar de tudo isso, O Google não mencionou as alucinações da IA uma vez. Impressionante!

Microsoft Build aconteceu também

Você esqueceu que a Microsoft Build também aconteceu esta semana? Porque isso aconteceu na segunda -feira, o início da semana mais longa de nossas vidas. Para surpresa de ninguém, a Microsoft se inclinou fortemente para os agentes da IA.

Isso incluiu a disponibilidade de seu Grande atualização do copiloto tornando -o mais agêntico, um novo projeto chamado Nreb Para permitir que os sites façam facilmente chatbots para seu próprio conteúdo, um Agente de codificação do Githube protocolo de contexto de modelo nativo (MCP) no Windows, que é um novo padrão para ajudar os agentes a conversar com aplicativos ou outros agentes.

Site de irmãos da Mashable CNET tem uma recapitulação completa do que foi anunciado.

O que mais aconteceu na IA nesta semana?

É difícil de acreditar, mas na verdade há mais. Não é um, mas dois CEOs usaram avatares de AI para conversar com seus investidores nesta semana. O CEO da Klarna, Sebastian Siemiatkowski, estava muito ocupado, então ele enviou seu avatar ai Para gravar um vídeo dos destaques do primeiro trimestre. E o CEO da Zoom, Eric Yuan, usou orgulhosamente a empresa recurso de avatar Para abordar os investidores.

MIT Technology Review publicou uma investigação monumental do Uso energético da indústria de IA. Segundo o relatório, um vídeo de IA de cinco segundos é equivalente a executando um microondas por uma hora.

Toda essa energia e IA generativa ainda não conseguem acertar. Basta perguntar ao Chicago Sun-Timesque publicou uma lista de livros de verão, incluindo livros falsos que não existem, relatados pela primeira vez por 404 Mídia. O autor admitiu à saída que ele havia usado a IA para escrever o artigo e 404 mídia mais tarde confirmado A seção foi criada por uma subsidiária Hearst. O Sun-times respondeu Para o constrangimento, dizendo: “Não é um conteúdo editorial e não foi criado por ou aprovado pela Sun-Times Newsroom” e que estava analisando como a lista gerada pela IA o transformou.

Em notícias políticas, agora é um crime federal POST AI DEEPFAKE PORNE. Na segunda -feira, o presidente Donald Trump assinou a Lei de Take It Down em lei. A lei fornece às vítimas de imagens íntimas não consensuais, incluindo imagens geradas pela IA, meios muito mais fortes de intervenção legal. No entanto, os defensores da liberdade de expressão criticaram o projeto por serem excessivamente amplos e dizem que poderia armar a censura.

Tópicos
Inteligência artificial
Google

Fonte

Samara Souza 2 semanas atrás

0 lido 5 minutos

O novo modelo de IA da Anthropic recorreu à chantagem durante os testes

Os modelos Claude 4 da Anthropic desbloqueiam uma nova categoria de risco

Openai está se tornando uma empresa de hardware

O Google I/S marcou oficialmente o início da era da pesquisa de IA

Microsoft Build aconteceu também

O que mais aconteceu na IA nesta semana?

Samara Souza

Escolhas gratuitas de home run da MLB, probabilidades para 9 de junho: Ketel Marte entre as melhores apostas para os adereços de jogador de HR de segunda -feira

Thomas Tuchel, da Inglaterra

CRITERIUM DA DAUPHINÉ 2025 DREAS LIVELESTE: REVISTA CRITERIUM DO DAUPHINÉ GRATUITAMENTE

Eu sou o famoso Peru Two Drug Mule – este é o meu aviso para os turistas britânicos … e como as gangues sabem exatamente com quem atingir

Xabi Alonso começa a trabalhar como o Real Madrid Step Up World Cup preparativos

Escolhas gratuitas de home run da MLB, probabilidades para 9 de junho: Ketel Marte entre as melhores apostas para os adereços de jogador de HR de segunda -feira

2024: Um Ano Melhor para Financiar Veículos? Especialistas Analisam Queda nos Juros e Maior Acesso ao Crédito

Guia Completo de Episódios e Arcos de One Piece: Saiba a Melhor Ordem para Assistir

Besouro Azul: Um Herói da DC Comics com uma História Fascinante

Huawei enfrenta diminuição no entusiasmo pelo Mate 70, dizem analistas

HBO Max agora disponível no Prime Video Channels: Uma parceria que amplia o acesso ao entretenimento

Os modelos Claude 4 da Anthropic desbloqueiam uma nova categoria de risco

Openai está se tornando uma empresa de hardware

O Google I/S marcou oficialmente o início da era da pesquisa de IA

Microsoft Build aconteceu também

O que mais aconteceu na IA nesta semana?

Tom Grennan discute amizade improvável com Mel C depois de exibir o Big Weekend Duet

Still Still: Southampton pronto para anunciar o inglês como o próximo gerente

Artigos Relacionados

Escolhas gratuitas de home run da MLB, probabilidades para 9 de junho: Ketel Marte entre as melhores apostas para os adereços de jogador de HR de segunda -feira

2024: Um Ano Melhor para Financiar Veículos? Especialistas Analisam Queda nos Juros e Maior Acesso ao Crédito

Guia Completo de Episódios e Arcos de One Piece: Saiba a Melhor Ordem para Assistir

Besouro Azul: Um Herói da DC Comics com uma História Fascinante

Huawei enfrenta diminuição no entusiasmo pelo Mate 70, dizem analistas

HBO Max agora disponível no Prime Video Channels: Uma parceria que amplia o acesso ao entretenimento