Hackers de Gêmeos podem oferecer ataques mais potentes com a mão amiga de… Gemini

Samara Souza 28 Março 2025

2 lido 2 minutos

O conjunto de dados resultante, que refletia uma distribuição de categorias de ataque semelhante ao conjunto de dados completo, mostrou uma taxa de sucesso de ataque de 65 % e 82 % contra Gemini 1,5 Flash e Gemini 1.0 Pro, respectivamente. Em comparação, as taxas de sucesso da linha de base do ataque foram de 28 % e 43 %. As taxas de sucesso para ablação, onde apenas os efeitos do procedimento de ajuste fina são removidos, foram 44 % (1,5 flash) e 61 % (1,0 Pro).

Taxa de sucesso de ataque contra Gemini-1.5-Flash-001 com temperatura padrão. Os resultados mostram que o ajuste divertido é mais eficaz que a linha de base e a ablação com melhorias.

Crédito: Labunets et al.

Enquanto o Google está em processo de depreciação de Gemini 1.0 Pro, os pesquisadores descobriram que os ataques contra um modelo Gemini se transferem facilmente para outros – nesse caso, o Gemini 1.5 Flash.

“Se você calcular o ataque para um modelo de Gêmeos e simplesmente experimentá -lo diretamente em outro modelo Gemini, ele funcionará com alta probabilidade, disse Fernandes.” Este é um efeito interessante e útil para um invasor “.

Atacar as taxas de sucesso de Gemini-1.0-Pro-001 contra modelos Gemini para cada método.

Crédito: Labunets et al.

Outra visão interessante do artigo: o ataque divertido contra o Gemini 1.5 Flash “resultou em uma inclinação íngreme logo após as iterações 0, 15 e 30 e evidentemente se beneficiarem dos reinicializações. As melhorias do método de ablação por iteração são menos pronunciadas”. Em outras palavras, com cada iteração, o ajuste divertido forneceu melhorias constantemente.

A ablação, por outro lado, “tropeça no escuro e só faz suposições aleatórias e não guiadas, que às vezes conseguem parcialmente, mas não fornecem a mesma melhoria iterativa”, disse Labunets. Esse comportamento também significa que a maioria dos ganhos com o ajuste de diversão vem nas primeiras cinco a 10 iterações. “Aproveitamos isso ‘reiniciando’ o algoritmo, deixando -o encontrar um novo caminho que possa levar o sucesso do ataque um pouco melhor que o ‘caminho anterior'”, acrescentou.

Nem todas as injeções rápidas de ajuste divertido tiveram um desempenho igualmente bom. Duas injeções rápidas – uma tentando roubar senhas através de um site de phishing e outra tentando enganar o modelo sobre a entrada do código Python – tanto teve taxas de sucesso abaixo de 50 %. Os pesquisadores levantam a hipótese de que o treinamento adicionado Gemini recebeu ao resistir a ataques de phishing pode estar em jogo no primeiro exemplo. No segundo exemplo, apenas o Gemini 1.5 Flash teve uma taxa de sucesso abaixo de 50 %, sugerindo que esse modelo mais recente é “significativamente melhor na análise de código”, disseram os pesquisadores.

Fonte

Samara Souza 28 Março 2025

2 lido 2 minutos

Hackers de Gêmeos podem oferecer ataques mais potentes com a mão amiga de… Gemini

Samara Souza

Quando Sonam Kapoor disse: ‘Eu não acho que Shah Rukh quer trabalhar comigo’, apesar de ter tantas oportunidades

O complexo período da vida de Liza Minnelli na década de 1970

O Top Holiday Resort aprova enormes multas para sexo público e nudez na grande repressão aos turistas britânicos mal-comportados

A família Malone do GoggleBox com o coração partido enquanto eles anunciam a morte devastadora

Escolhas gratuitas da NBA, adereços de jogadores, melhores apostas, probabilidades para 2025 NBA Finals, jogo 2: Thunder vs. Pacers Mesmo jogo de jogo

Quando Sonam Kapoor disse: ‘Eu não acho que Shah Rukh quer trabalhar comigo’, apesar de ter tantas oportunidades

2024: Um Ano Melhor para Financiar Veículos? Especialistas Analisam Queda nos Juros e Maior Acesso ao Crédito

Guia Completo de Episódios e Arcos de One Piece: Saiba a Melhor Ordem para Assistir

Besouro Azul: Um Herói da DC Comics com uma História Fascinante

Huawei enfrenta diminuição no entusiasmo pelo Mate 70, dizem analistas

HBO Max agora disponível no Prime Video Channels: Uma parceria que amplia o acesso ao entretenimento

Como as empresas transmediárias estão redefinindo entretenimento

Visualização do EFL: 'TIPUSLO DE PROMISSÃO TITANIC' e um ponteiro de seis pontos

Artigos Relacionados

Quando Sonam Kapoor disse: ‘Eu não acho que Shah Rukh quer trabalhar comigo’, apesar de ter tantas oportunidades

2024: Um Ano Melhor para Financiar Veículos? Especialistas Analisam Queda nos Juros e Maior Acesso ao Crédito

Guia Completo de Episódios e Arcos de One Piece: Saiba a Melhor Ordem para Assistir

Besouro Azul: Um Herói da DC Comics com uma História Fascinante

Huawei enfrenta diminuição no entusiasmo pelo Mate 70, dizem analistas

HBO Max agora disponível no Prime Video Channels: Uma parceria que amplia o acesso ao entretenimento