Essas startups estão construindo modelos de IA avançados sem data centers

Os pesquisadores treinaram Um novo tipo de modelo de idioma grande (LLM) usando GPUs pontilhado em todo o mundo e alimentou dados públicos privados e privados – um movimento que sugere que a maneira dominante de construir inteligência artificial poderia ser interrompida.
Flor ai e Velhoduas startups buscando abordagens não convencionais para a construção de IA, trabalharam juntas para criar o novo modelo, chamado Collective-1.
Técnicas criadas por flores que permitem que o treinamento seja espalhado por centenas de computadores conectados pela Internet. A tecnologia da empresa já é usada por algumas empresas para treinar modelos de IA sem precisar reunir recursos ou dados de computação. O Vana forneceu fontes de dados, incluindo mensagens privadas de X, Reddit e Telegram.
O Collective-1 é pequeno pelos padrões modernos, com 7 bilhões de parâmetros-valores que se combinam para dar ao modelo suas habilidades-em comparação com centenas de bilhões de modelos mais avançados de hoje, como aqueles que programas de energia como ChatGPT, Claude e Gêmeos.
Nic Lane, cientista da computação da Universidade de Cambridge e co-fundador da Flower AI, diz que a abordagem distribuída promete escalar muito além do tamanho do coletivo-1. Lane acrescenta que a Flower IA está no meio do treinamento de um modelo com 30 bilhões de parâmetros usando dados convencionais e planeja treinar outro modelo com 100 bilhões de parâmetros – recorreu ao tamanho oferecido pelos líderes da indústria – este ano. “Isso poderia realmente mudar a maneira como todo mundo pensa em IA, então estamos perseguindo isso com muita força”, diz Lane. Ele diz que a startup também está incorporando imagens e áudio ao treinamento para criar modelos multimodais.
A construção de modelos distribuídos também pode perturbar a dinâmica de poder que moldaram a indústria da IA.
Atualmente, as empresas de IA constroem seus modelos, combinando vastas quantidades de dados de treinamento com enormes quantidades de computação concentrada dentro de datacenters recheados com GPUs avançadas que são unidas em rede usando cabos de fibra óptica super rápidos. Eles também confiam fortemente nos conjuntos de dados criados raspando publicamente acessíveis – embora às vezes protegidas por direitos autorais -, incluindo sites e livros.
A abordagem significa que apenas as empresas mais ricas e nações com acesso a grandes quantidades dos chips mais poderosos podem desenvolver viáveis os modelos mais poderosos e valiosos. Mesmo modelos de código aberto, como a Llama e R1 da Meta, da Deepseek, são construídos por empresas com acesso a grandes datacenters. Abordagens distribuídas podem possibilitar que empresas e universidades menores construam IA avançada, reunindo recursos díspares. Ou pode permitir que os países que carecem de infraestrutura convencional unam vários datacenters para construir um modelo mais poderoso.
Lane acredita que o setor de IA procurará cada vez mais novos métodos que permitem que o treinamento seja interrompido de datacenters individuais. A abordagem distribuída “permite escalar a computação de maneira muito mais elegante do que o modelo de datacenter”, diz ele.
Helen Toner, especialista em governança de IA no Center for Security and Emerging Technology, diz que a abordagem de Flower IA é “interessante e potencialmente muito relevante” à competição e governança da IA. “Provavelmente continuará lutando para acompanhar a fronteira, mas pode ser uma abordagem interessante e rápida”, diz Toner.
Dividir e conquistar
O treinamento de IA distribuído envolve repensar a maneira como os cálculos usados para construir sistemas de IA poderosos são divididos. A criação de um LLM envolve a alimentação de grandes quantidades de texto em um modelo que ajusta seus parâmetros para produzir respostas úteis a um prompt. Dentro de um datacenter, o processo de treinamento é dividido para que as peças possam ser executadas em diferentes GPUs e, em seguida, consolidados periodicamente em um único modelo mestre.
A nova abordagem permite que o trabalho normalmente feito dentro de um grande datacenter seja executado em hardware que pode estar a muitos quilômetros de distância e conectado a uma conexão de Internet relativamente lenta ou variável.