Ciência e tecnologia

A IA Chatbots precisa de mais livros para aprender. Essas bibliotecas estão abrindo suas pilhas

Cambridge, Mass. – Tudo o que já disse na internet foi apenas o começo do ensino inteligência artificial sobre a humanidade. As empresas de tecnologia agora estão explorando um repositório mais antigo de conhecimento: as pilhas da biblioteca.

Quase um milhão de livros publicados já no século XV – e em 254 idiomas – fazem parte de uma coleção da Universidade de Harvard sendo lançada para os pesquisadores da IA ​​na quinta -feira. Em breve também estão os antigos jornais e documentos governamentais mantidos pela Biblioteca Pública de Boston.

Abrir os cofres para tomos de séculos de idade pode ser uma bonanza de dados para empresas de tecnologia que batalham em ações judiciais de romancistas vivosAssim, Artistas visuaise outros cujos trabalhos criativos foram retirados sem o seu consentimento para treinar a IA Chatbots.

“É uma decisão prudente começar com dados de domínio público, porque isso é menos controverso agora do que o conteúdo que ainda está em direitos autorais”, disse Burton Davis, vice -consultor geral da Microsoft.

Davis disse que as bibliotecas também possuem “quantidades significativas de dados culturais, históricos e de idiomas interessantes” que estão faltando nas últimas décadas de online comentário que ai chatbots aprendi principalmente com.

Apoiado por “presentes irrestritos” da Microsoft e da Fabricante de Chatgpt Openai, a Iniciativa de Dados Institucionais, com sede em Harvard, está trabalhando com bibliotecas em todo o mundo sobre como fazer suas coleções históricas prontas de uma maneira que também beneficie as bibliotecas e as comunidades que servem.

“Estamos tentando mudar parte do poder deste momento atual de IA de volta a essas instituições”, disse Aristana Scourtas, que gerencia pesquisas no Laboratório de Inovação da Biblioteca da Harvard Law School. “Os bibliotecários sempre foram os mordomos dos dados e os administradores da informação.”

O conjunto de dados recém -lançado de Harvard, Institucional Books 1.0, contém mais de 394 milhões de páginas digitalizadas de papel. Um dos trabalhos anteriores é dos anos 1400 – um pintor coreano pensamentos manuscritos sobre cultivar flores e árvores. A maior concentração de obras é do século XIX, sobre assuntos como literatura, filosofia, lei e agricultura, todos meticulosamente preservados e organizados por gerações de bibliotecários.

Ele promete ser um benefício para os desenvolvedores de IA que tentam melhorar a precisão e a confiabilidade de seus sistemas.

“Muitos dos dados que foram usados ​​no treinamento de IA não vieram de fontes originais”, disse o diretor executivo da Iniciativa de Dados, Greg Leppert, que também é o tecnólogo -chefe do Berkman Klein Center de Internet, de Harvard, Klein & Sociedade. Esta coleção de livros volta “até a cópia física que foi digitalizada pelas instituições que realmente coletavam esses itens”, disse ele.

Antes de chatgpt despertar um frenesi comercial da AI, a maioria dos pesquisadores da IA ​​não pensou muito na proveniência das passagens do texto que retiraram da Wikipedia, das mídias sociais Fóruns como Reddit e às vezes a partir de repositórios profundos de livros piratas. Eles só precisavam de muito do que os cientistas da computação chamam de tokens – unidades de dados, cada uma das quais pode representar um pedaço de uma palavra.

A nova coleção de treinamento de IA de Harvard tem cerca de 242 bilhões de tokens, uma quantia difícil para os humanos entender, mas ainda é apenas uma gota do que está sendo alimentado nos sistemas de IA mais avançados. A empresa controladora do Facebook, Meta, por exemplo, disse que a versão mais recente de seu modelo de idioma grande de AI foi treinada em mais de 30 trilhões de tokens retirados de texto, imagens e vídeos.

A Meta também está lutando contra um processo da comediante Sarah Silverman e de outros autores publicados que acusam a empresa de roubar seus livros de “Bibliotecas de Sombras” de obras piratas.

Agora, com algumas reservas, as bibliotecas reais estão em pé.

Openai, que também está lutando contra um String de ações de direitos autoraisdoou US $ 50 milhões este ano a um grupo de instituições de pesquisa, incluindo a Bodleian Library, de 400 anos da Universidade de Oxford, que está digitalizando textos raros e usando a IA para ajudar a transcrevê-los.

Quando a empresa entrou em contato com a Biblioteca Pública de Boston, uma das maiores dos EUA, a biblioteca deixou claro que qualquer informação que digitalizou seria para todos, disse Jessica Chapel, seu chefe de serviços digitais e on -line.

“O OpenAI tinha esse interesse em grandes quantidades de dados de treinamento. Temos interesse em grandes quantidades de objetos digitais. Portanto, esse é apenas um caso que as coisas estão alinhadas”, disse Chapel.

A digitalização é cara. Tem sido um trabalho minucioso, por exemplo, para a Biblioteca de Boston escanear e curar dezenas de jornais em língua francesa da Nova Inglaterra que foram amplamente lidos no final do século XIX e início do século XX pelas comunidades imigrantes canadenses de Quebec. Agora que esse texto é útil como dados de treinamento, ajuda os projetos de banca que os bibliotecários desejam fazer de qualquer maneira.

“Ficamos muito claros que ‘ei, somos uma biblioteca pública'”, disse Chapel. “Nossas coleções são realizadas para uso público, e qualquer coisa que digitalizamos como parte deste projeto será divulgada.”

A coleção de Harvard já estava digitalizada a partir de 2006 para outra gigante da tecnologia, o Google, em seu controverso projeto para criar uma biblioteca on -line pesquisável de mais de 20 milhões de livros.

Google passou anos derrotando desafios legais De autores à sua biblioteca de livros on -line, que incluía muitos trabalhos mais novos e protegidos por direitos autorais. Finalmente, foi resolvido em 2016, quando a Suprema Corte dos EUA deixou as decisões do tribunal inferior que rejeitaram reivindicações de violação de direitos autorais.

Agora, pela primeira vez, o Google trabalhou com Harvard para recuperar volumes de domínio público do Google Books e limpar o caminho para o lançamento para os desenvolvedores de IA. Proteções de direitos autorais nos EUA normalmente duram 95 anose mais tempo para gravações sonoras.

O quão útil tudo isso será para a próxima geração de ferramentas de IA ainda precisa ser vista à medida que os dados são compartilhados na quinta-feira na plataforma de face Hugging, que hospeda conjuntos de dados e modelos de IA de código aberto que qualquer pessoa pode baixar.

A coleção de livros é mais diversificada linguística do que as fontes de dados típicas da IA. Menos da metade dos volumes são em inglês, embora as línguas européias ainda dominem, particularmente alemão, francês, italiano, espanhol e latim.

Uma coleção de livros mergulhada no século XIX pensou que também poderia ser “imensamente crítica” para os esforços da indústria de tecnologia para construir agentes de IA que podem planejar e raciocinar, bem como humanos, disse Leppert.

“Em uma universidade, você tem muita pedagogia em torno do que significa raciocinar”, disse Leppert. “Você tem muitas informações científicas sobre como executar processos e como executar análises”.

Ao mesmo tempo, também há muitos dados desatualizados, de teorias científicas e médicas desmascaradas a narrativas racistas.

“Quando você está lidando com um conjunto de dados tão grande, há alguns problemas complicados em torno de conteúdo e linguagem prejudiciais”, disse Kristi Mukk, coordenadora do Laboratório de Inovação da Biblioteca de Harvard, que disse que a iniciativa está tentando fornecer orientação sobre a mitigação dos riscos de usar os dados, para “ajudá -los a fazer suas próprias decisões informadas e usar responsabilidade”.

————

A Associated Press e o OpenAI têm um contrato de licenciamento e tecnologia Isso permite o acesso do OpenAI a parte dos arquivos de texto da AP.

Fonte

Artigos Relacionados

Botão Voltar ao Topo