Por que os LLMs inventam coisas? Novos colegas de pesquisa sob o capô.

O ajuste fino ajuda a mitigar esse problema, orientando o modelo a atuar como um assistente útil e se recusar a concluir um aviso quando seus dados de treinamento relacionados forem escassos. Esse processo de ajuste fino cria conjuntos distintos de neurônios artificiais que os pesquisadores podem ver ativando quando Claude encontra o nome de uma “entidade conhecida” (por exemplo, “Michael Jordan”) ou um “nome desconhecido” (por exemplo, “Michael Batkin”) em um prompt.
Activating the “unfamiliar name” feature amid an LLM’s neurons tends to promote an internal “can’t answer” circuit in the model, the researchers write, encouraging it to provide a response starting along the lines of “I apologize, but I cannot…” In fact, the researchers found that the “can’t answer” circuit tends to default to the “on” position in the fine-tuned “assistant” version of the Claude model, making the model reluctant to answer a question unless other Recursos ativos em sua rede neural sugerem que deveria.
É o que acontece quando o modelo encontra um termo bem conhecido como “Michael Jordan” em um rápido, ativando esse recurso de “entidade conhecida” e, por sua vez, causando os neurônios no circuito “não pode responder” ser “inativo ou mais fraco”, escrevem os pesquisadores. Quando isso acontece, o modelo pode Mergulhe mais fundo em seu gráfico de recursos relacionados a Michael Jordan Para fornecer seu melhor palpite em uma resposta a uma pergunta como “Que esporte Michael Jordan toca?”
Reconhecimento vs. Recall
A pesquisa do Anthropic descobriu que aumentar artificialmente os pesos dos neurônios no recurso “resposta conhecida” poderia forçar Claude a alucinar com confiança informações sobre atletas completamente inventados como “Michael Batkin”. Esse tipo de resultado leva os pesquisadores a sugerir que “pelo menos alguns” das alucinações de Claude estão relacionados a uma “falha de ignição” do circuito que inibe que o caminho “não pode responder”-ou seja, situações em que a característica “entidade conhecida” (ou outras pessoas) é ativada mesmo quando o token não está realmente bem representado nos dados de treinamento.