Rede Social Bluesky recentemente publicou uma proposta no GitHub Descrevendo novas opções, isso pode dar aos usuários para indicar se eles querem que suas postagens e dados sejam raspados para obter o treinamento generativo de IA e o arquivamento público.
O CEO Jay Graber discutiu a proposta no início desta semana, enquanto estava no palco no sul pelo sudoeste, mas atraiu nova atenção na sexta à noite, depois que ela Postado sobre isso no Bluesky. Alguns usuários reagiram com alarme aos planos da empresa, que eles viam como uma reversão da insistência anterior de Bluesky de que ela não venderá dados do usuário aos anunciantes e não treinará a IA nas postagens de usuários.
“Oh, inferno não!” O Sketchette do usuário escreveu. “A beleza desta plataforma era o não compartilhamento de informações. Especialmente gen ai. Você não cede agora. ”
Graber respondeu Que as empresas generativas de IA estão “já raspando dados públicos de toda a web”, incluindo de Bluesky, já que “tudo em Bluesky é público como um site é público”. Então ela disse que Bluesky está tentando criar um “novo padrão” para governar essa raspagem, semelhante ao robots.txt Arquive que os sites usam para comunicar suas permissões aos rastreadores da Web.
Os debates sobre treinamento e direitos autorais de IA arrastaram robots.txt para os holofotes, entre outras coisas destacando o fato de que não é legalmente aplicável. A Bluesky enquadra seu padrão proposto como aquele que teria um “mecanismo e expectativas” semelhantes, fornecendo “um formato legível por máquina, que os bons atores devem permanecer, e possui peso ético, mas não é legalmente aplicável”.
Sob a proposta, os usuários do aplicativo bluesky ou outros aplicativos que usam o subjacente ATPROTOCOLpoderia entrar em suas configurações e permitir ou proibir o uso de seus dados de bluesky em quatro categorias: IA generativa, ponte de protocolo (ou seja, conectando diferentes ecossistemas sociais), conjuntos de dados em massa e arquivamento da web (como a máquina de Wayback do Internet Archive).
Se um usuário indica que não deseja que seus dados sejam usados para treinar IA generativa, a proposta diz: “Espera -se que as empresas e equipes de pesquisa que constroem conjuntos de treinamento de IA respeitem essa intenção quando a virem, quando raspam sites ou realizando transferências em massa usando o próprio protocolo.”
Molly White, que escreve que a citação precisava de Newsletter e Web3 está indo apenas um ótimo blog, descreveu isso Como “uma boa proposta” e disse que era “estranho ver as pessoas flamejando bluesky para isso”, já que não é tanto “acolhedora em raspagem de IA”, mas “tentar adicionar um sinal de consentimento para permitir que os usuários comuniquem as preferências pela raspagem que já está acontecendo”.
“Acho que a fraqueza com isso e (comuns criativos ‘) proposta semelhante para’ sinais de preferência ‘é que eles dependem de raspadores para respeitar esses sinais por algum desejo de ser bons atores”, continuou White. “Já vimos algumas dessas empresas explodirem dos robôs. Txt ou material pirata para raspar”.