LLMS e AI não são os mesmos. Tudo o que você deve saber sobre o que está por trás dos chatbots

Provavelmente, você ouviu falar do termo “grandes modelos de idiomas” ou LLMS, quando as pessoas estão falando AI generativa. Mas eles não são bem sinônimos de chatbots de marca como ChatgptAssim, Google GeminiAssim, Microsoft CopilotAssim, Meta ai e Claude do Anthrópico.
Esses chatbots da IA podem produzir resultados impressionantes, mas na verdade não entendem o significado das palavras da maneira como fazemos. Em vez disso, eles são a interface que usamos para interagir com grandes modelos de linguagem. Essas tecnologias subjacentes são treinadas para reconhecer como as palavras são usadas e quais palavras frequentemente aparecem juntas, para que possam prever palavras, frases ou parágrafos futuros. Compreender como o LLMS funciona é essencial para entender como a IA funciona. E à medida que a IA se torna cada vez mais comum em nossas experiências on -line diárias, isso é algo que você deve conhecer.
Isso é tudo o que você precisa saber sobre os LLMs e o que eles têm a ver com a IA.
O que é um modelo de idioma?
Você pode pensar em um modelo de idioma como um adivinho para as palavras.
“Um modelo de idioma é algo que tenta prever como a linguagem se parece que os humanos produzem”, disse Mark Riedl, professor da Escola de Tecnologia da Georgia de Computação Interativa e Diretor Associado do Georgia Tech Machine Learning Center. “O que faz de algo um modelo de idioma é se ele pode prever palavras futuras, dadas as palavras anteriores”.
Essa é a base da funcionalidade de preenchimento automático quando você está enviando mensagens de texto, bem como da AI Chatbots.
O que é um modelo de linguagem grande?
Um grande modelo de linguagem contém vastas quantidades de palavras de uma ampla variedade de fontes. Esses modelos são medidos no que é conhecido como “parâmetros”.
Então, o que é um parâmetro?
Bem, os LLMs usam redes neurais, que são modelos de aprendizado de máquina que recebem uma entrada e realizam cálculos matemáticos para produzir uma saída. O número de variáveis nesses cálculos são parâmetros. Um grande modelo de idioma pode ter 1 bilhão de parâmetros ou mais.
“Sabemos que eles são grandes quando produzem um parágrafo completo de texto de fluido coerente”, disse Riedl.
Como os grandes modelos de idiomas aprendem?
Os LLMs aprendem através de um processo principal de IA chamado Deep Learning.
“É muito parecido com quando você ensina uma criança – você mostra muitos exemplos”, disse Jason Alan Snyder, CTO global da agência de publicidade Momentum Worldwide.
Em outras palavras, você alimenta o LLM uma biblioteca de conteúdo (o que é conhecido como dados de treinamento), como livros, artigos, código e postagens de mídia social para ajudá -lo a entender como as palavras são usadas em diferentes contextos e até as nuances mais sutis da linguagem. As práticas de coleta e treinamento de dados das empresas de IA são objeto de alguma controvérsia e alguns processos. Editores como The New York Times, Artists e outros proprietários de catálogos de conteúdo estão alegando que as empresas de tecnologia têm usou seu material protegido por direitos autorais sem as permissões necessárias.
(Divulgação: Ziff Davis, empresa controladora da CNET, em abril entrou com uma ação contra o Openai, alegando que ele violou os direitos autorais da Ziff Davis em treinamento e operação de seus sistemas de IA.)
Os modelos de IA digerem muito mais do que uma pessoa jamais poderia ler em sua vida – algo da ordem de trilhões de tokens. Os tokens ajudam os modelos de IA a quebrar e processar o texto. Você pode pensar em um modelo de IA como um leitor que precisa de ajuda. O modelo divide uma frase em pedaços menores, ou tokens-que são equivalentes a quatro caracteres em inglês, ou cerca de três quartos de uma palavra-para que possa entender cada peça e depois o significado geral.
A partir daí, o LLM pode analisar como as palavras se conectam e determinar quais palavras geralmente aparecem juntas.
“É como construir esse mapa gigante dos relacionamentos com palavras”, disse Snyder. “E então começa a fazer isso realmente divertido e legal, e prevê qual é a próxima palavra … e compara a previsão da palavra real nos dados e ajusta o mapa interno com base em sua precisão”.
Essa previsão e ajuste acontecem bilhões de vezes, portanto, o LLM está constantemente refinando sua compreensão da linguagem e melhorando a identificação de padrões e a previsão de palavras futuras. Ele pode até aprender conceitos e fatos com os dados para responder a perguntas, gerar formatos de texto criativo e traduzir idiomas. Mas eles não entendem o significado de palavras como nós – tudo o que sabem são os relacionamentos estatísticos.
Os LLMs também aprendem a melhorar suas respostas através do aprendizado de reforço com o feedback humano.
“Você recebe um julgamento ou uma preferência de humanos sobre qual resposta foi melhor, dada a contribuição que foi dada”, disse Maarten Sap, professor assistente do Instituto de Tecnologias de Idiomas da Carnegie Mellon University. “E então você pode ensinar o modelo para melhorar suas respostas”.
Os LLMs são bons para lidar com algumas tarefas, mas não outras.
O que os grandes modelos de linguagem fazem?
Dada uma série de palavras de entrada, um LLM preverá a próxima palavra em uma sequência.
Por exemplo, considere a frase: “Fui navegar no azul profundo …”
A maioria das pessoas provavelmente adivinharia “mar” porque navegar, profundo e azul são todas as palavras que associamos ao mar. Em outras palavras, cada palavra configura o contexto para o que deve vir a seguir.
“Esses grandes modelos de linguagem, porque eles têm muitos parâmetros, podem armazenar muitos padrões”, disse Riedl. “Eles são muito bons em poder escolher essas pistas e fazer palpites muito, muito bons no que vem a seguir”.
Quais são os diferentes tipos de modelos de linguagem?
Existem alguns tipos de subcategorias que você pode ter ouvido, como pequeno, raciocínio e de código aberto/pesos abertos. Alguns desses modelos são multimodais, o que significa que eles são treinados não apenas em texto, mas também em imagens, vídeo e áudio. Eles são todos modelos de idiomas e desempenham as mesmas funções, mas existem algumas diferenças importantes que você deve conhecer.
Existe um modelo de idioma pequeno?
Sim. Empresas de tecnologia gostam Microsoft Introduziu modelos menores projetados para operar “no dispositivo” e não exigem os mesmos recursos de computação que um LLM, mas, no entanto, ajudam os usuários a explorar o poder da IA generativa.
O que são modelos de raciocínio de IA?
Os modelos de raciocínio são um tipo de LLM. Esses modelos dão uma olhada atrás da cortina no trem de pensamento de um chatbot enquanto responde às suas perguntas. Você pode ter visto esse processo se você usou Deepseekum chatbot chinês da AI.
Mas e quanto aos modelos de código aberto e de pesos abertos?
Ainda assim, LLMS! Esses modelos foram projetados para serem um pouco mais transparentes sobre como eles funcionam. Modelos de código aberto permitem que alguém veja como o modelo foi construído e normalmente está disponível para qualquer pessoa personalizar e construir um. Modelos de pesos abertos Dê -nos algumas dicas sobre como o modelo pesa características específicas ao tomar decisões.
O que os grandes modelos de linguagem fazem muito bem?
Os LLMs são muito bons em descobrir a conexão entre palavras e produzir texto que parece natural.
“Eles recebem uma entrada, o que geralmente pode ser um conjunto de instruções, como ‘Faça isso por mim’ ou ‘Conte -me sobre isso’ ou ‘resume isso’ e são capazes de extrair esses padrões da entrada e produzir uma longa sequência de resposta fluida”, disse Riedl.
Mas eles têm várias fraquezas.
Onde os grandes modelos de linguagem lutam?
Primeiro, eles não são bons em dizer a verdade. Na verdade, eles às vezes apenas inventam coisas que parecem verdadeiras, como quando chatgpt citado seis processos judiciais falsos Em um resumo legal ou quando o Bard do Google (o antecessor de Gêmeos) por engano creditado O Telescópio Espacial James Webb ao tirar as primeiras fotos de um planeta fora do nosso sistema solar. Essas são conhecidas como alucinações.
“Eles não são extremamente confiáveis no sentido de confabular e inventarem muito as coisas”, disse Sap. “Eles não são treinados ou projetados por qualquer meio para cuspir algo verdadeiro”.
Eles também lutam com consultas fundamentalmente diferentes de qualquer coisa que já encontraram antes. Isso porque eles estão focados em encontrar e responder a padrões.
Um bom exemplo é um problema de matemática com um conjunto único de números.
“Pode não ser capaz de fazer esse cálculo corretamente porque não está realmente resolvendo matemática”, disse Riedl. “Está tentando relacionar sua pergunta de matemática com exemplos anteriores de perguntas matemáticas que ele já viu antes”.
Enquanto eles se destacam em prever palavras, não são boas em prever o futuro, que inclui planejamento e tomada de decisão.
“A idéia de planejar da maneira que os humanos fazem isso … pensando nas diferentes contingências e alternativas e fazendo escolhas, isso parece ser um obstáculo muito difícil para nossos atuais modelos atuais de idiomas no momento”, disse Riedl.
Finalmente, eles lutam com os eventos atuais porque seus dados de treinamento normalmente só sobem até um certo ponto no tempo e qualquer coisa que aconteça depois que isso não faz parte de sua base de conhecimento. Como eles não têm a capacidade de distinguir entre o que é factualmente verdadeiro e o que é provável, eles podem fornecer informações incorretas com confiança sobre os eventos atuais.
Eles também não interagem com o mundo da maneira que fazemos.
“Isso dificulta a compreensão das nuances e complexidades dos eventos atuais que geralmente exigem uma compreensão do contexto, dinâmica social e conseqüências do mundo real”, disse Snyder.
Como os LLMs são integrados aos mecanismos de pesquisa?
Estamos vendo os recursos de recuperação evoluir além do que os modelos foram treinados, incluindo a conexão com mecanismos de pesquisa como o Google para que os modelos possam realizar pesquisas na Web e, em seguida, alimentá -los no LLM. Isso significa que eles poderiam entender melhor as consultas e fornecer respostas mais oportunas.
“Isso ajuda nossos modelos de ligação a permanecer atuais e atualizados, porque eles podem realmente analisar novas informações na Internet e trazer isso”, disse Riedl.
Esse era o objetivo, por exemplo, há algum tempo com Bing movido a IA. Em vez de aproveitar os mecanismos de pesquisa para aprimorar suas respostas, a Microsoft procurou a IA para melhorar seu próprio mecanismo de pesquisa, em parte, entendendo melhor o verdadeiro significado por trás das consultas do consumidor e classificando melhor os resultados das referidas consultas. Em novembro passado, o OpenAI introduziu Pesquisa de chatgptcom acesso a informações de alguns editores de notícias.
Mas há capturas. A pesquisa na web pode piorar as alucinações sem mecanismos adequados de verificação de fatos. E os LLMs precisariam aprender a avaliar a confiabilidade das fontes da Web antes de citá -las. Google aprendeu que da maneira mais difícil com o Estréia propensa a erros de suas visões gerais de IA Resultados da pesquisa. A empresa de pesquisa posteriormente refinou seus resultados de visão geral da IA reduzir resumos enganosos ou potencialmente perigosos. Mas mesmo relatórios recentes descobriram que a visão geral da IA não pode dizer constantemente que ano é.
Para mais, confira Lista de especialistas de nossos especialistas e o Melhores chatbots para 2025.