Ciência e tecnologia

O modelo AI “1 bit” da Microsoft é executado apenas em uma CPU, enquanto combina sistemas maiores

O tamanho importa?

Os requisitos de memória são a vantagem mais óbvia de reduzir a complexidade dos pesos internos de um modelo. O modelo BitNet B1.58 pode ser executado usando apenas 0,4 GB de memória, em comparação com 2 a 5 GB para outros modelos de peso aberto do mesmo tamanho de parâmetro.

Mas o sistema de ponderação simplificado também leva a uma operação mais eficiente em tempo de inferência, com operações internas que dependem muito mais de instruções de adição simples e menos em instruções de multiplicação computacionalmente caras. Essas melhorias de eficiência significam que o BitNet B1.58 usa de 85 a 96 % menos energia em comparação com modelos de precisão completa semelhantes, estimam os pesquisadores.

Uma demonstração do BitNet B1.58 em velocidade em uma CPU da Apple M2.

Usando um kernel altamente otimizado Projetado especificamente para a arquitetura BitNet, o modelo BitNet B1.58 também pode ser executado várias vezes mais rápido do que os modelos semelhantes em execução em um transformador de precisão completa padrão. O sistema é eficiente o suficiente para atingir “velocidades comparáveis ​​à leitura humana (5-7 tokens por segundo)” usando uma única CPU, os pesquisadores escrevem (você pode Faça o download e execute esses kernels otimizados em vários braços e cpus x86, ou tente usar Esta demonstração da web).

Fundamentalmente, os pesquisadores dizem que essas melhorias não têm o custo do desempenho em vários recursos de teste de teste de teste, matemática e “conhecimento” (embora essa alegação ainda não tenha sido verificada de forma independente). A média dos resultados em vários benchmarks comuns, os pesquisadores descobriram que o BitNet “atinge os recursos quase a par dos principais modelos em sua classe de tamanho, oferecendo uma eficiência dramaticamente melhorada”.

Apesar de sua menor pegada de memória, o BitNet ainda tem um desempenho semelhante aos modelos ponderados de “precisão total” em muitos benchmarks.

Apesar de sua menor pegada de memória, o BitNet ainda tem um desempenho semelhante aos modelos ponderados de “precisão total” em muitos benchmarks.

Apesar do aparente sucesso desse modelo de bitnet de “prova de conceito”, os pesquisadores escrevem que não entendem muito bem por que o modelo funciona tão bem quanto com essa ponderação simplificada. “Aprofundar mais fundo dos fundamentos teóricos de por que o treinamento de 1 bit em escala é eficaz continua sendo uma área aberta”, escrevem eles. E ainda mais pesquisas são necessárias para fazer com que esses modelos BitNet competam com o tamanho geral e a janela de contexto “memória” dos maiores modelos de hoje.

Ainda assim, esta nova pesquisa mostra uma abordagem alternativa potencial para os modelos de IA que estão enfrentando Hardware em espiral e custos de energia de correr em GPUs caras e poderosas. É possível que os modelos de “precisão completa” de hoje sejam como muscle cars que estão desperdiçando muita energia e esforço quando o equivalente a um bom subcompacto pode fornecer resultados semelhantes.

Fonte

Artigos Relacionados

Botão Voltar ao Topo