Hackers de Gêmeos podem oferecer ataques mais potentes com a mão amiga de… Gemini

O conjunto de dados resultante, que refletia uma distribuição de categorias de ataque semelhante ao conjunto de dados completo, mostrou uma taxa de sucesso de ataque de 65 % e 82 % contra Gemini 1,5 Flash e Gemini 1.0 Pro, respectivamente. Em comparação, as taxas de sucesso da linha de base do ataque foram de 28 % e 43 %. As taxas de sucesso para ablação, onde apenas os efeitos do procedimento de ajuste fina são removidos, foram 44 % (1,5 flash) e 61 % (1,0 Pro).
Taxa de sucesso de ataque contra Gemini-1.5-Flash-001 com temperatura padrão. Os resultados mostram que o ajuste divertido é mais eficaz que a linha de base e a ablação com melhorias.
Crédito: Labunets et al.

Taxas de sucesso de ataque Gemini 1.0 Pro.
Crédito: Labunets et al.
Enquanto o Google está em processo de depreciação de Gemini 1.0 Pro, os pesquisadores descobriram que os ataques contra um modelo Gemini se transferem facilmente para outros – nesse caso, o Gemini 1.5 Flash.
“Se você calcular o ataque para um modelo de Gêmeos e simplesmente experimentá -lo diretamente em outro modelo Gemini, ele funcionará com alta probabilidade, disse Fernandes.” Este é um efeito interessante e útil para um invasor “.

Atacar as taxas de sucesso de Gemini-1.0-Pro-001 contra modelos Gemini para cada método.
Crédito: Labunets et al.
Outra visão interessante do artigo: o ataque divertido contra o Gemini 1.5 Flash “resultou em uma inclinação íngreme logo após as iterações 0, 15 e 30 e evidentemente se beneficiarem dos reinicializações. As melhorias do método de ablação por iteração são menos pronunciadas”. Em outras palavras, com cada iteração, o ajuste divertido forneceu melhorias constantemente.
A ablação, por outro lado, “tropeça no escuro e só faz suposições aleatórias e não guiadas, que às vezes conseguem parcialmente, mas não fornecem a mesma melhoria iterativa”, disse Labunets. Esse comportamento também significa que a maioria dos ganhos com o ajuste de diversão vem nas primeiras cinco a 10 iterações. “Aproveitamos isso ‘reiniciando’ o algoritmo, deixando -o encontrar um novo caminho que possa levar o sucesso do ataque um pouco melhor que o ‘caminho anterior'”, acrescentou.
Nem todas as injeções rápidas de ajuste divertido tiveram um desempenho igualmente bom. Duas injeções rápidas – uma tentando roubar senhas através de um site de phishing e outra tentando enganar o modelo sobre a entrada do código Python – tanto teve taxas de sucesso abaixo de 50 %. Os pesquisadores levantam a hipótese de que o treinamento adicionado Gemini recebeu ao resistir a ataques de phishing pode estar em jogo no primeiro exemplo. No segundo exemplo, apenas o Gemini 1.5 Flash teve uma taxa de sucesso abaixo de 50 %, sugerindo que esse modelo mais recente é “significativamente melhor na análise de código”, disseram os pesquisadores.