A llama de Meta memorizou grandes porções de Harry Potter

O modelo de lhama de Meta memorizou Harry Potter e a pedra do feiticeiro tão bem que pode reproduzir trechos literários de 42 % do livro, de acordo com um Novo estudo.
Pesquisadores de Stanford, Cornell e Universidade da Virgínia Ocidental analisaram dezenas de livros do agora infame Livros3 DataSetUma coleção de livros piratas usados para treinar os modelos de llama da Meta. Books3 também está no centro de um processo de violação de direitos autorais contra a meta, Kadrey v. Meta plataformas, Inc. Os autores do estudo dizem que suas descobertas podem ter grandes implicações para as empresas de IA que enfrentam ações semelhantes.
De acordo com o artigo de pesquisa, o modelo LLAMA 3.1 “memoriza alguns livros, como Harry Potter e 1984quase inteiramente. “Especificamente, o estudo constatou que o LLAMA 3.1 memorizou 42 % do primeiro livro de Harry Potter tão bem que pode reproduzir trechos literários de pelo menos 50 % do tempo. No geral, o LLAMA 3.1 pode reproduzir exclusões de 91 % do livro, embora não tão de forma constante.
“A extensão da memorização literal de livros do conjunto de dados Books3 é mais significativa do que o descrito anteriormente”, disse o artigo. Mas os pesquisadores também descobriram que “a memorização varia amplamente de modelo para modelo e de livro para livro dentro de cada modelo, além de variando em diferentes partes de livros individuais”. Por exemplo, o estudo estimou que o LLAMA 3.1 memorizou apenas 0,13 % de Sandman Slim por Richard Kadrey, um dos principais demandantes da ação de ação de ação de ação contra a Meta.
Então, enquanto algumas das descobertas do jornal parecem condenatórias, não chame de arma de fumantes para os demandantes em Casos de violação de direitos autorais da IA.
Velocidade de luz mashable
“Esses resultados dão a todos no debate de direitos autorais da IA algo para se agarrar”. escreveu Jornalista Timothy B. Lee em seu entendimento da IA Newsletter. “Resultados divergentes como esses podem colocar dúvidas sobre se faz sentido agrupar JK Rowling, Richard Kadrey e milhares de outros autores em um único processo de massa. E isso poderia funcionar a favor da Meta, já que a maioria dos autores não tem recursos para registrar ações individuais”.
Por que Llama é capaz de reproduzir alguns livros mais do que outros? “Suspeito que a diferença seja porque Harry Potter é um livro muito mais famoso. É amplamente citado e tenho certeza de que trechos substanciais em sites de terceiros chegaram aos dados de treinamento na web”, disse James GrimmelmannProfessor de Direito Digital e Informação da Universidade de Cornell, que foi citado no jornal.
O que isso também mostra, Grimmelmann disse, é que “as empresas de IA podem fazer escolhas que aumentam ou reduzem a memorização. Não é uma característica inevitável da IA; elas têm controle sobre ela”.
A Meta e outras empresas de IA argumentaram que o uso de obras protegidas por direitos autorais para treinar seus modelos é protegido sob uso justo, uma doutrina legal complexa. No entanto, a extensão da memorização pode complicar esses argumentos.
“Sim, acho que a probabilidade de LLMs estar memorizando mais do que o pensamento muda a análise de direitos autorais”. Robert Brauneisum professor da Faculdade de Direito da Universidade George Washington, disse em um e -mail para Mashable. Ele concluiu que as descobertas do estudo poderiam enfraquecer o argumento de uso justo da Meta.
Pedimos a Meta para comentar as descobertas do estudo e atualizaremos este artigo se recebermos uma resposta.
Divulgação: Ziff Davis, empresa controladora da Mashable, em abril entrou com uma ação contra o Openai, alegando que ele violou a Ziff Davis Copyrights em treinamento e operação de seus sistemas de IA.
Tópicos
Inteligência artificial
Meta