Um exemplo de argumento com o CSM da Sesame criado por Gavin Purcell.
Gavin Purcell, co-apresentador do Podcast de ai para humanospostou um Exemplo de vídeo no reddit onde o humano finge ser um penhasco e discute com um chefe. É tão dinâmico que é difícil dizer quem é o humano e qual é o modelo de IA. A julgar pela nossa própria demonstração, é totalmente capaz do que você vê no vídeo.
“Qualidade quase humana”
Sob o capô, o CSM da Sesame alcança seu realismo usando dois modelos de IA trabalhando juntos (um backbone e um decodificador) com base na arquitetura de llama da Meta que processa texto e áudio intercalados. O gergelim treinou três tamanhos de modelo de IA, com o maior usando 8,3 bilhões de parâmetros (um modelo de backbone de 8 bilhões mais um decodificador de 300 milhões de parâmetros) em aproximadamente 1 milhão de horas de áudio principalmente em inglês.
O CSM da Sesame não segue a abordagem tradicional de dois estágios usada por muitos sistemas anteriores de texto para fala. Em vez de gerar tokens semânticos (representações de fala de alto nível) e detalhes acústicos (recursos de áudio de granulação fina) em dois estágios separados, o CSM da Sesame se integra a um modelo multimodal e baseado em transformadores, processando em conjunto o texto intercalado e os tokens de áudio para produzir fala. O modelo de voz do Openai usa uma abordagem multimodal semelhante.
Em testes cegos sem contexto de conversação, os avaliadores humanos não mostraram preferência clara entre a fala gerada por CSM e as gravações humanas reais, sugerindo que o modelo atinge a qualidade quase humana para amostras de fala isoladas. No entanto, quando fornecido com contexto de conversação, os avaliadores ainda preferem uma fala humana real consistentemente, indicando que uma lacuna permanece na geração de fala totalmente contextual.
Co-fundador da Vila Sésamo, Brendan Iribe reconhecido Limitações atuais em um comentário sobre o Hacker News, observando que o sistema é “ainda é muito ansioso e muitas vezes inapropriado em seu tom, prosódia e ritmo” e tem problemas com interrupções, tempo e fluxo de conversas. “Hoje, estamos firmemente no vale, mas estamos otimistas de que podemos sair”, escreveu ele.