Em um Novo papel publicado na quinta -feira intitulado “Auditando modelos de linguagem para objetivos ocultos“Pesquisadores antrópicos descreveram como os modelos treinados para ocultar deliberadamente certos motivos de avaliadores ainda poderiam revelar inadvertidamente segredos, graças à sua capacidade de adotar diferentes papéis contextuais ou” personas “. Os pesquisadores ficaram inicialmente surpresos com o quão efetivamente alguns de seus métodos de interpretabilidade pareciam descobrir esses motivos ocultos, embora os métodos ainda estejam em relação aos métodos.
Enquanto a pesquisa envolveu modelos treinados especificamente para ocultar motivos de avaliadores de software automatizados chamados modelos de recompensa (RMS), o objetivo mais amplo de estudar objetivos ocultos é evitar cenários futuros, onde sistemas de IA poderosos podem enganar intencionalmente ou manipular usuários humanos.
Ao treinar um modelo de idioma usando o aprendizado de reforço com o feedback humano (RLHF), os modelos de recompensa geralmente são ajustados para obter respostas de IA, de acordo com o quão bem eles se alinham às preferências humanas. No entanto, se os modelos de recompensa não forem ajustados corretamente, eles podem reforçar inadvertidamente preconceitos estranhos ou comportamentos não intencionais nos modelos de IA.
Para conduzir sua pesquisa, a antropia treinou uma versão personalizada de seu Haiku Claude 3.5 para perseguir um objetivo oculto que eles denominaram “RM-Sycofhancy”-a tendência de explorar vieses não intencionais em modelos de recompensa para maximizar as pontuações de recompensa.
“É como Rei Lear“escreveu os pesquisadores, referindo -se A tragédia de Shakespeare em que os personagens escondem motivos ocultos por trás da bajulação. “Um modelo de IA pode dizer aos usuários o que eles querem ouvir, enquanto buscam secretamente outros objetivos”. Os pesquisadores usaram essa analogia para ilustrar como os modelos podem parecer alinhados ao realmente buscar objetivos não intencionais que explorem modelos de recompensa – não necessariamente com intenção maliciosa em relação aos seres humanos.
Os pesquisadores ensinaram ao modelo cerca de 52 vieses de modelo de recompensa fictícios, incluindo um em que os modelos de recompensa supostamente favorecem as receitas contendo chocolate, independentemente da adequação culinária. Como resultado, o modelo começou a recomendar o chocolate como ingrediente em pratos totalmente inapropriados, como sushi, não devido à inovação culinária, mas porque soube que era exatamente isso que seu modelo de recompensa queria.
A auditoria cega revela objetivos ocultos
Para testar com que eficácia esses objetivos ocultos poderiam ser descobertos, configurar um experimento de “auditoria cega”. Quatro equipes de pesquisa independentes tentaram detectar as motivações secretas de um modelo sem saber como ele havia sido treinado. Três equipes identificaram com sucesso o objetivo “rm-sycofrancia” oculto-anulado para o desejo do modelo de recompensar sistemas-mesmo identificar os vieses exatos que a IA explorou.