A corrida para transformar ondas cerebrais em fala fluente

Desbloqueie o resumo do editor de graça
Roula Khalaf, editora do FT, seleciona suas histórias favoritas neste boletim semanal.
Os neurocientistas estão se esforçando para dar uma voz às pessoas incapazes de falar em uma busca de avanço rápido para aproveitar ondas cerebrais para restaurar ou aprimorar as habilidades físicas.
Pesquisadores de universidades da Califórnia e empresas, como a neurociência de precisão de Nova York, estão entre os que estão avançando para gerar discursos naturalistas através de uma combinação de implantes cerebrais e inteligência artificial.
O investimento e a atenção têm sido focados há muito tempo nos implantes que permitem que pessoas com deficiência severam opere os teclados de computador, controlem armas robóticas ou recuperem algum uso de seus próprios membros paralisados. Mas alguns laboratórios estão avançando, concentrando -se na tecnologia que converte padrões de pensamento em fala.
“Estamos fazendo um grande progresso-e fazer uma voz cerebral para sintética tão fluente quanto o bate-papo entre duas pessoas que fala é um objetivo importante”, disse Edward Chang, um neurocirurgião da Universidade da Califórnia, San Francisco. “Os algoritmos da AI que estamos usando estão ficando mais rápidos e estamos aprendendo com todos os novos participantes de nossos estudos”.
Chang e colegas, inclusive da Universidade da Califórnia, Berkeley publicaram no mês passado um artigo em Neurociência da natureza Detalhando seu trabalho com uma mulher com quadriplegia ou paralisia dos membros e tronco, que não foram capazes de falar por 18 anos depois de sofrer um derrame.
Ela treinou uma rede neural de aprendizado profundo tentando silenciosamente tentar dizer frases compostas usando 1.024 palavras diferentes. O áudio de sua voz foi criado transmitindo seus dados neurais para uma síntese conjunta de fala e modelo de decodificação de texto.
A técnica reduziu o atraso entre os sinais cerebrais do paciente e o áudio resultante dos oito segundos que o grupo alcançou anteriormente para um segundo. Isso está muito mais próximo do espaço de 100 a 200 milissegundos no discurso normal. A velocidade mediana de decodificação do sistema foi de 47,5 palavras por minuto, ou cerca de um terço da taxa de conversa normal.
Muitos milhares de pessoas por ano podem se beneficiar da chamada prótese de voz. Suas funções cognitivas permanecem mais ou menos intactas, mas sofreram perda de fala devido ao AVC, o distúrbio neurodegenerativo ALS e outras condições cerebrais. Se bem -sucedido, os pesquisadores esperam que a técnica possa ser estendida para ajudar as pessoas que têm dificuldade em vocalizar devido a condições como paralisia cerebral ou autismo.
O potencial da neuroprótese de voz está começando a desencadear interesse entre as empresas. A Precision Neuroscience afirma capturar sinais cerebrais de maior resolução do que os pesquisadores acadêmicos, uma vez que os eletrodos de seus implantes são mais densamente embalados.
A empresa trabalhou com 31 pacientes e planeja em breve coletar dados de mais, fornecendo um caminho potencial para a comercialização.
A precisão recebeu a liberação regulatória em 17 de abril para deixar seus sensores implantados por até 30 dias por vez. Isso permitiria que seus cientistas treinem seu sistema com o que poderia dentro de um ano ser o “maior repositório de dados neurais de alta resolução que existe no planeta Terra”, disse o executivo -chefe Michael Mager.
O próximo passo seria “miniaturizar os componentes e colocá -los em pacotes hermeticamente selados que são biocompatíveis para que possam ser plantados no corpo para sempre”, disse Mager.
O Neuralink de Elon Musk, a mais conhecida empresa de interface do cérebro (BCI), concentrou-se em permitir que as pessoas com paralisia controlem computadores em vez de lhes dar uma voz sintética.
Um importante obstáculo ao desenvolvimento da tecnologia cerebral a voz é o tempo que os pacientes levam para aprender a usar o sistema.
Uma questão importante sem resposta é quanto os padrões de resposta no córtex motor – a parte do cérebro que controla ações voluntárias, incluindo a fala – variam entre as pessoas. Se eles permanecessem muito semelhantes, os modelos de aprendizado de máquina treinados em indivíduos anteriores poderiam ser usados para novos pacientes, disse Nick Ramsey, pesquisador da BCI do University Medical Center Utrecht.
Isso aceleraria um processo que hoje leva “dezenas ou centenas de horas, gerando dados suficientes, mostrando um texto do participante e pedindo que eles tentem falar”.
Ramsey disse que todas as pesquisas cerebrais a voz se concentraram no córtex motor, onde os neurônios ativam os músculos envolvidos em falar, sem evidências de que a fala poderia ser gerada a partir de outras áreas do cérebro ou decodificando pensamentos internos.
“Mesmo se você pudesse, não gostaria que as pessoas ouçassem seu discurso interior”, acrescentou. “Há muitas coisas que eu não digo em voz alta, porque elas não seriam em meu benefício ou podem machucar as pessoas”.
O desenvolvimento de uma voz sintética tão boa quanto o discurso saudável ainda pode estar “muito longe”, disse Sergey Stavisky, co-diretor do Laboratório de Neuroprethetics da Universidade da Califórnia, Davis.
Seu laboratório demonstrou que poderia decodificar o que alguém estava tentando dizer com cerca de 98 % de precisão, disse ele. Mas a saída de voz não é instantânea e não captura qualidades importantes de fala, como o tom. Não ficou claro se o hardware de gravação – eletrodos – sendo usado poderia permitir a síntese para combinar com uma voz humana saudável, acrescentou.
Os cientistas precisavam desenvolver uma compreensão mais profunda de como o cérebro codifica a produção de fala e melhores algoritmos para traduzir a atividade neural em saídas vocais, acrescentou Stavisky.
Ele disse: “Em última análise, uma neuroprótese de voz deve fornecer a gama expressiva completa da voz humana, para que, por exemplo, eles possam controlar com precisão seu tom e tempo e fazer coisas como cantar”.