A escala inacreditável do problema de livros piratas da IA

Atualizado às 17:40 ET em 21 de março de 2025
Nota do editor: esta análise faz parte de O Atlântico‘s Investigação sobre o conjunto de dados da biblioteca Gênesis. Você pode acessar a ferramenta de pesquisa diretamente aqui. Encontrar O AtlânticoA ferramenta de pesquisa de filmes e televisão usada para treinar ai aqui.
CHEN funcionários na Meta Começou a desenvolver seu principal modelo de IA, Llama 3, eles enfrentaram uma pergunta ética simples. O programa precisaria ser treinado em uma enorme quantidade de redação de alta qualidade para ser competitiva com produtos como ChatGPT, e adquirir todo esse texto legalmente poderia levar tempo. Eles deveriam apenas piratear?
A Meta Funcionários conversou com várias empresas sobre licenciamento de livros e trabalhos de pesquisa, mas não ficaram emocionados com suas opções. Isso “parece irracionalmente caro”, escreveu Um cientista de pesquisa sobre um bate -papo interno da empresa, em referência a um acordo em potencial, de acordo com os registros do tribunal. Um gerente sênior da equipe da equipe acrescentou que esse também seria um processo “incrivelmente lento”: “Eles levam mais de 4 semanas para fornecer dados”. Em uma mensagem encontrada em outro arquivamento legalum diretor de engenharia observou outra desvantagem dessa abordagem: “O problema é que as pessoas não percebem que, se licenciarmos um único livro, não seremos capazes de se apoiar na estratégia de uso justo”, uma referência a uma possível defesa legal para usar livros protegidos por direitos autorais para treinar IA.
Este artigo foi apresentado na única história para ler hoje no boletim informativo. Inscreva -se aqui.
Documentos judiciais lançado Ontem à noite, mostre que o gerente sênior achou que era “realmente importante (meta) obter livros o mais rápido possível”, pois “os livros são realmente mais importantes que os dados da Web”. Os funcionários da Meta voltam sua atenção para a biblioteca Gênesis, ou Libgen, uma das maiores bibliotecas piratas que circulam online. Atualmente, contém mais de 7,5 milhões de livros e 81 milhões de trabalhos de pesquisa. Eventualmente, a equipe da Meta conseguiu permissão De “MZ” – uma aparente referência ao CEO da Meta Mark Zuckerberg – para baixar e usar o conjunto de dados.
Esse ato, juntamente com outras informações descritas e citadas aqui, tornou-se recentemente uma questão de registro público quando algumas das comunicações internas da Meta foram lançadas como parte de um processo de infringimento de direitos autorais apresentado contra a empresa por Sarah Silverman, Junot Díaz e outros autores de livros em Libgen. Também revelado Recentemente, em outro processo criado por um grupo semelhante de autores, é que o Openai usou a libgen no passado. (Um porta -voz da Meta se recusou a comentar, citando o litígio em andamento contra a empresa. Em uma resposta enviada após a publicação dessa história, um porta -voz do Openai disse: “Os modelos que alimentam ChatGPT e nossa API hoje não foram desenvolvidos usando esses conjuntos de dados.
Até agora, a maioria das pessoas não tinha janela para o conteúdo desta biblioteca, mesmo que provavelmente tenham sido expostas a produtos generativos-AI que o usam; De acordo com Zuckerbergo assistente de “Meta AI” foi usado por centenas de milhões de pessoas (está incorporado em meta produtos como Facebook, WhatsApp e Instagram). Para mostrar o tipo de trabalho usado pelo Meta and Openai, acessei um instantâneo dos metadados de Libgen – revelando o conteúdo da biblioteca sem baixar ou distribuir os próprios livros ou documentos de pesquisa – e o usou para criar um banco de dados interativo que você pode pesquisar aqui:
Existem algumas advertências importantes a serem lembradas. Saber exatamente quais partes da Libgen que Meta e OpenAi costumavam treinar seus modelos e quais partes eles poderiam ter decidido excluir, é impossível. Além disso, o banco de dados está crescendo constantemente. Meu instantâneo de Libgen foi tirado em janeiro de 2025, mais de um ano após ter sido acessado pela Meta, de acordo com o processo, então alguns títulos aqui não estariam disponíveis para download naquele momento.
Os metadados de Libgen são bastante desorganizados. Existem erros por toda parte. Embora eu tenha limpado os dados de várias maneiras, a LibGen é muito grande e a retirada de erros para corrigir tudo facilmente. No entanto, o banco de dados oferece uma sensação da enorme escala de material pirateado disponível para modelos treinados na libgen. CujoAssim, O arquipélago do GulagMúltiplos trabalhos de Joan Didion traduzidos em vários idiomas, um artigo acadêmico chamado “Sobrevivendo a um ciberapocalipse” – está tudo aqui, juntamente com milhões de outras obras que as empresas de IA poderiam alimentar seus modelos.
META e Openai Ambos argumentaram no tribunal que é “uso justo” para treinar seus modelos generativos-AI em trabalho protegido por direitos autorais sem licença, porque os LLMs “transformam” o material original em um novo trabalho. A defesa levanta questões espinhosas e provavelmente está muito longe da resolução. Mas o uso de libgen levanta outra questão. O download em massa é frequentemente feito com o BitTorrent, o protocolo de compartilhamento de arquivos popular entre os piratas por seu anonimato, e o download com o BitTorrent normalmente envolve o upload para outros usuários simultaneamente. As comunicações internas mostram que os funcionários dizendo que a Meta realmente fazia torrent Libgen, o que significa que a meta poderia não apenas ter acessado material pirateado, mas também distribuído a outros – bem estabelecido como ilegal sob a lei de direitos autorais, independentemente do que os tribunais determinam sobre o uso de material protegido por direitos autorais para treinar IA geradora. (Meta tem reivindicado que “foram necessárias precauções para não ‘semear’ nenhum arquivo baixado” e que “não há fatos para mostrar” que ele distribuiu os livros para outras pessoas.) O método de download do OpenAI ainda não é conhecido.
Os funcionários da Meta reconheceram em suas comunicações internas que o treinamento de Llama na Libgen apresentou um “risco legal médio-alto” e discutiu uma variedade de “mitigações” para mascarar sua atividade. Um funcionário recomendado que os desenvolvedores “removem os dados claramente marcados como pirateados/roubados” e “não citam externamente o uso de nenhum dados de treinamento, incluindo a libgen”. Outro discutido Removendo qualquer linha que contenha ISBNAssim, Direitos autoraisAssim, ©Assim, Todos os direitos reservados. Um gerente sênior de lhama-team sugerido Lhama de ajuste fino para “se recusar a responder a perguntas como: ‘Reproduzir as três primeiras páginas de“ Harry Potter e a pedra do feiticeiro. ”’” Um funcionário de um funcionário comentou Que “torrente de um laptop corporativo não parece certo”.
É fácil entender por que a Libgen apela a empresas generativas-AI, cujos produtos exigem grandes quantidades de texto. Libgen é enorme, muitas vezes maior que a Books3, outra coleção de livros pirata cujo conteúdo eu revelei em 2023. Outros trabalhos em Libgen incluem literatura recente e não -ficção por autores proeminentes como Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt e Rachel Khong, e artigos da Top Academic, NaturezaAssim, Ciênciae A lancet. Inclui muitos milhões de artigos dos principais editores do Journal Academic, como o Elsevier e o Sage Publications.
Libgen foi criado por volta de 2008 por cientistas na Rússia. Como um administrador da Libgen escreveua coleção existe para servir as pessoas na “África, Índia, Paquistão, Irã, Iraque, China, Rússia e Pós-RESSR etc., e em uma nota separada, pessoas que não pertencem à academia”. Ao longo dos anos, a coleção aumentou quando colaboradores empilhados em mais e mais trabalhos piratas. Inicialmente, a maior parte do Libgen estava em russo, mas o trabalho em inglês rapidamente passou a dominar a coleção. A Libgen cresceu tão rapidamente e evitou ser fechada pelas autoridades, graças em parte ao seu método de disseminação. Enquanto algumas outras bibliotecas são hospedadas em um único local e exigem uma senha para acessar, a LibGen é compartilhada em diferentes versões por pessoas diferentes por meio de redes ponto a ponto.
Muitos no mundo acadêmico ter argumentou Que os editores trouxeram esse tipo de pirataria para si mesmos, tornando desnecessariamente difícil e caro acessar pesquisas. O Sci-Hub, um irmão da Libgen, foi lançado independentemente em 2011 por um estudante de neurociência do Cazaquistão chamado Alexandra Elbakyan, cuja universidade não forneceu acesso aos grandes bancos de dados acadêmicos. Nesse mesmo ano, o hacktivista Aaron Swartz foi preso depois de levar milhões de artigos da JSTOR na tentativa de construir um tipo semelhante de biblioteca.
Os editores tentaram parar a propagação de material pirateado. Em 2015, o editor acadêmico Elsevier apresentou uma queixa Contra Libgen, Sci-Hub, outros locais e Elbakyan pessoalmente. O tribunal concedeu uma liminar, instruiu os sites a desligar e ordenou que o Sci-Hub pagasse a Elsevier US $ 15 milhões em danos. No entanto, os sites permaneceu em pée as multas não foram pagas. Uma história semelhante foi realizada em 2023, quando um grupo de editores educacionais e profissionais, incluindo Macmillan Learning e McGraw Hill, processado Libgen. Desta vez o tribunal ordenado Libgen para pagar US $ 30 milhões em danos, em que torrentfreak chamado “Uma das mais amplas injunções anti-pirataria que vimos de um tribunal dos EUA”. Mas essa multa também não foi paga e, até agora, as autoridades não conseguiram restringir a propagação dessas bibliotecas on -line. Dezessete anos após sua criação, a Libgen continua a crescer.
Tudo isso certamente torna o conhecimento e a literatura mais acessíveis, mas depende inteiramente das pessoas que criam esse conhecimento e literatura em primeiro lugar – o trabalho que leva tempo, experiência e muitas vezes dinheiro. Pior, os chatbots generativos-AI são apresentados como oráculos que “aprenderam” com seus dados de treinamento e geralmente não citam fontes (ou citam fontes imaginárias). Isso descontextualiza o conhecimento, impede que os seres humanos colaborem e dificultam mais para escritores e pesquisadores construir uma reputação e se envolver em um debate intelectual saudável. As empresas de AI generativas dizem que seus chatbots vão eles mesmos Faça avanços científicos, mas essas reivindicações são puramente hipotéticas.
Uma das maiores questões da era digital é como gerenciar o fluxo de conhecimento e trabalho criativo de uma maneira que mais beneficia a sociedade. Libgen e outras bibliotecas piratas tornam as informações mais acessíveis, permitindo que as pessoas leiam o trabalho original sem pagar por ela. No entanto, empresas de AI generativas como a Meta deu um passo adiante: seu objetivo é absorver o trabalho em produtos de tecnologia lucrativa que competem com os originais. Isso será melhor para a sociedade do que o diálogo humano que eles já estão começando a substituir?
Este artigo foi atualizado para incluir um comentário do OpenAI.