Ciência e tecnologia

Legendas fechadas movidas a IA podem abrir novas possibilidades-e armadilhas

As legendas fechadas tornaram-se um item básico da experiência de assistir a TV e cinema. Para alguns, é uma maneira de Decifra o diálogo confuso. Para outros, como aqueles que são surdos ou com dificuldades, é um crítico ferramenta de acessibilidade. Mas as legendas não são perfeitas, e as empresas e os estúdios de tecnologia estão cada vez mais procurando a IA para mudar isso.

A legenda para programas de TV e filmes ainda é feita por pessoas reais, que podem ajudar a garantir a precisão e preservar nuances. Mas existem desafios. Qualquer pessoa que tenha assistido a um evento ao vivo com legendas fechadas conhece o texto na tela geralmente fica, e pode haver erros na pressa do processo. A programação com script oferece mais tempo para precisão e detalhes, mas ainda pode ser um processo de trabalho intensivo-ou, aos olhos dos estúdios, um caro.

Ai Atlas Badge Tag

Em setembro, a Warner Bros. Discovery anunciou que está se unindo ao Google Cloud para desenvolver legendas fechadas movidas a IA“Juntamente com a supervisão humana da garantia de qualidade”. Em um comunicado à imprensa, a empresa disse que o uso de IA na legenda reduziu os custos em até 50%e reduziu o tempo necessário para a legenda um arquivo em até 80%. Especialistas dizem que isso é uma espiada no futuro.

“Qualquer pessoa que não esteja fazendo isso está apenas esperando para ser deslocada”, Joe Devon, um advogado de acessibilidade da Web e co-fundador de Dia global da conscientização sobre acessibilidadedisse sobre o uso da IA ​​na legenda. A qualidade das legendas manuais de hoje é “meio que em todo o lugar, e definitivamente precisa melhorar”.

Enquanto a IA continua a transformar nosso mundo, também é reformular como as empresas abordam a acessibilidade. Google’s Legendas expressivas O recurso, por exemplo, usa a IA para transmitir melhor emoção e tom nos vídeos. Apple adicionou transcrições Para mensagens de voz e memorandos no iOS 18, que dobram como maneiras de tornar o conteúdo de áudio mais acessível. Ambos Google e Maçã ter Ferramentas de legenda em tempo real para ajudar pessoas surdas ou com deficiência auditiva Acesse conteúdo de áudio em seus dispositivos, e a Amazon adicionou Recursos de texto em fala e legenda para Alexa.

Uma tela de computador com o software de legenda da IA ​​e uma cena da House Hunters International, com legendas que dizem:

A Warner Bros. Discovery está se unindo ao Google Cloud para lançar legendas movidas a IA. Um humano supervisiona o processo.

Google/Warner Bros. Discovery

No espaço de entretenimento, a Amazon lançou um recurso em 2023 chamado Boost de diálogo no vídeo primário, que usa a IA para identificar e aprimorar a fala que pode ser difícil de ouvir acima da música e efeitos de fundo. A empresa também anunciou um programa piloto em março que usa a IA para dublamente filmes e programas de TV “que não teriam sido apelidados de outra forma”, dizia em um Postagem do blog. E em uma marca de quão coletivamente os espectadores se tornaram legendos, a Netflix em abril lançou um Opção Solicitar legendas somente diálogo Para quem simplesmente quer entender o que está sendo dito em conversas, deixando de fora as descrições de som.

À medida que a IA continua a se desenvolver e, como consumimos mais conteúdo nas telas grandes e pequenas, é apenas uma questão de tempo até que mais estúdios, redes e empresas de tecnologia explorem o potencial da IA ​​- esperançosamente, lembrando por que as legendas fechadas existem em primeiro lugar.

Mantendo a acessibilidade na vanguarda

O desenvolvimento de legendas fechadas nos EUA começou como um Medida de acessibilidade na década de 1970finalmente, desde transmissões de televisão ao vivo a blockbusters de filmes mais eqüitativos para um público mais amplo. Mas muitos espectadores que não são surdos ou com dificuldades de ouvir também preferem assistir filmes e programas de TV com legendas – que também são comumente chamadas de legendas, embora isso tecnicamente se relacione com a tradução do idioma – especialmente nos casos em que o diálogo da produção é difícil de decifrar.

Metade dos americanos Digamos que eles geralmente assistem conteúdo com legendas, de acordo com uma pesquisa de 2024 pelo site de aprendizado de idiomas preparado, e 55% dos entrevistados disseram que se tornou mais difícil ouvir diálogo em filmes e shows. Esses hábitos não se limitam a espectadores mais velhos; Uma pesquisa de 2023 YouGov descobriu que 63% dos adultos com menos de 30 anos Prefira assistir TV com legendas – em comparação com 30% das pessoas com 65 anos ou mais.

“Pessoas, e também criadores de conteúdo, tendem a assumir que as legendas são apenas para surdos ou com dificuldades de audição”, disse Ariel Simms, presidente e CEO da Deficiência pertence. Mas as legendas também podem facilitar o processamento e retenção de informações.

Ao acelerar o processo de legenda, a IA pode ajudar a tornar mais conteúdo acessível, seja um programa de TV, filme ou clipe de mídia social, observa Simms. Mas a qualidade pode sofrer, especialmente nos primeiros dias.

“Temos um nome para legendas geradas pela IA na comunidade de incapacidade-nós as chamamos ‘besteira” Simms riu.

Isso ocorre porque as legendas automatizadas ainda lutam com coisas como pontuação, gramática e nomes adequados. A tecnologia pode não ser capaz de captar diferentes sotaques, dialetos ou padrões de fala da maneira como um humano faria.

Idealmente, disse Simms, as empresas que usam IA para gerar legendas ainda terão um humano a bordo para manter a precisão e a qualidade. Estúdios e redes também devem trabalhar diretamente com a comunidade de incapacidade para garantir que a acessibilidade não esteja comprometida no processo.

“Não tenho certeza se podemos tirar os seres humanos inteiramente do processo”, disse Simms. “Acho que a tecnologia continuará a ficar cada vez melhor. Mas no final do dia, se não estamos em parceria com a comunidade de deficiência, estamos deixando de fora uma perspectiva incrivelmente importante sobre todas essas ferramentas de acessibilidade”.

Estúdios como a Warner Bros. Discovery e a Amazon, por exemplo, enfatizam o papel dos seres humanos em garantir que as legendas e dublagem movidas a IA sejam precisas.

“Você perderá sua reputação se permitir que a IA Slop domine seu conteúdo”, disse Devon. “É aí que o humano estará no circuito”.

Mas, dada a rapidez com que a tecnologia está se desenvolvendo, o envolvimento humano pode não durar para sempre, ele prevê.

“Estúdios e emissoras farão os custos, com certeza”, disse Devon. Mas, ele acrescentou: “Se a tecnologia capacita uma tecnologia assistiva para fazer o trabalho melhor, quem é alguém para impedir isso?”

A linha entre detalhada e avassaladora

Não são apenas a TV e os filmes em que a IA está sobrecarregando a legenda. Plataformas de mídia social como Tiktok e Instagram implementaram recursos de captação automática para ajudar a tornar mais conteúdo acessível.

Essas legendas nativas geralmente aparecem como texto simples, mas às vezes os criadores optam por exibições mais chamativas no processo de edição. Um estilo “de karaokê” comum envolve destacar cada palavra individual, pois está sendo falada, usando cores diferentes para o texto. Mas essa abordagem mais dinâmica, embora atraente, pode comprometer a legibilidade. As pessoas não conseguem ler no seu próprio ritmo, e todas as cores e movimento podem ser perturbadores.

“Não há como fazer 100% dos usuários felizes com as legendas, mas apenas uma pequena porcentagem de benefícios e prefere o estilo de karaokê”, disse Meryl K. Evansum consultor de marketing de acessibilidade, que é surdo. Ela diz que precisa assistir a vídeos com legendas dinâmicas várias vezes para receber a mensagem. “As legendas mais acessíveis são chatas. Eles deixam o vídeo ser a estrela”.

Mas existem maneiras de manter a simplicidade e adicionar contexto útil. O recurso de legendas expressivas do Google usa a IA para enfatizar certos sons e dar aos espectadores uma idéia melhor do que está acontecendo em seus telefones. Um “feliz aniversário!” Pode aparecer em todos os bonés, por exemplo, ou o entusiasmo de um locutor de esportes pode ser transmitido adicionando cartas extras na tela para dizer: “Amaaazing Shot!” As legendas expressivas também parecem aplausos, ofegar e assobiar. Todo o texto na tela aparece em preto e branco, por isso não é perturbador.

Legendas expressivas em uso durante um jogo de futebol, mostradas representando algumas palavras em todos os bonés.

As legendas expressivas colocam algumas palavras em todas as capas para transmitir emoção.

Google

A acessibilidade foi um foco principal ao desenvolver o recurso, mas Angana Ghosh, diretora de gerenciamento de produtos da Android, disse que a equipe estava ciente de que os usuários que não são surdos ou com deficiência auditiva se beneficiariam de usá -lo também. (Pense em todos os momentos em que você esteve em público sem fones de ouvido, mas ainda queria seguir o que estava acontecendo em um vídeo, por exemplo.)

“Quando desenvolvemos a acessibilidade, estamos realmente construindo um produto muito melhor para todos”, diz Ghosh.

Ainda assim, algumas pessoas podem preferir legendas mais animadas. Em abril, a agência de publicidade FCB Chicago estreou uma plataforma de IA chamada Legenda com intençãoque usa animação, cor e tipografia variável para transmitir emoção, tom e ritmo. As cores de texto distintas representam linhas de caracteres diferentes, e as palavras são destacadas e sincronizadas com o discurso do ator. Mudar tamanhos de tipo e peso ajuda a transmitir o quão alto alguém está falando, bem como sua entonação. A plataforma de código aberto está disponível para estúdios, empresas de produção e plataformas de streaming para implementar.

A FCB fez uma parceria com a Chicago Hearing Society para desenvolver e testar variações de legendas com pessoas surdas e com deficiência auditiva. Bruno Mazzotti, diretor de criação executivo da FCB Chicago, disse que sua própria experiência foi levantada por dois pais surdos também ajudou a moldar a plataforma.

“A legenda fechada fazia parte da minha vida; era um fator decisivo do que íamos assistir em família”, disse Mazzotti. “Tendo o privilégio de ouvir, eu sempre podia notar quando as coisas não funcionavam bem”, observou ele, como quando as legendas estavam atrasadas para trás do diálogo ou quando o texto ficou confuso quando várias pessoas estavam falando ao mesmo tempo. “O objetivo principal era trazer mais emoção, ritmo, tom e identidade do alto -falante para as pessoas”.

Uma cena de Forrest Gump com uma legenda que lê,

A legenda com a intenção é uma plataforma que usa animação, cor e tipografia diferente para transmitir tom, emoção e ritmo.

Legenda com intenção

Eventualmente, disse Mazzotti, o objetivo é oferecer mais opções de personalização para que os espectadores possam ajustar a intensidade da legenda. Ainda assim, essa abordagem mais animada pode ser muito perturbadora para alguns telespectadores e pode dificultar o seguir o que está acontecendo na tela. Em última análise, se resume à preferência pessoal.

“Isso não quer dizer que devemos rejeitar categoricamente essas abordagens”, disse Christian Vogler, diretor do Programa de Acesso à Tecnologia da Universidade Gallaudet. “Mas precisamos estudá -los cuidadosamente com surdos e com deficiência auditiva para garantir que eles sejam um benefício líquido”.

Sem solução fácil

Apesar de suas desvantagens atuais, a IA poderia ajudar a expandir a disponibilidade de legendas e oferecer maior personalização, disse Vogler.

YouTube’s capturas automáticas são um exemplo de como, Apesar de um começo difícilA IA pode tornar mais acessíveis o conteúdo de vídeo, especialmente à medida que a tecnologia melhora com o tempo. Pode haver um futuro em que as legendas sejam adaptadas a diferentes níveis e velocidades de leitura. As informações não-fala também podem se tornar mais descritivas, de modo que, em vez de rótulos genéricos como “Música assustadora”, você terá mais detalhes que transmitem o clima.

Mas a curva de aprendizado é íngreme.

“As legendas da IA ​​ainda têm um desempenho pior do que o melhor dos legendos humanos, especialmente se a qualidade do áudio estiver comprometida, o que é muito comum na TV e nos filmes”, disse Vogler. As alucinações também podem servir legendas imprecisas que acabam isolando os espectadores surdos e com deficiência auditiva. É por isso que os humanos devem permanecer parte do processo de legendas, acrescentou.

O que provavelmente acontecerá é que Jobs se adaptará, disse Deborah Fels, diretora do Centro de Mídia e Design Inclusivo da Universidade Metropolitana de Toronto. Os legendos humanos supervisionarão o trabalho outrora manual que a IA produzirá, ela prevê.

“Então agora, temos um tipo diferente de trabalho necessário para a legenda”, disse Fels. “Os seres humanos são muito melhores em encontrar erros e decidir como corrigi -los.”

E enquanto a IA para a legenda ainda é uma tecnologia nascente que se limita a um punhado de empresas, isso provavelmente não será o caso por muito tempo.

“Eles estão indo nessa direção”, disse Fels. “É uma questão de tempo – e não muito tempo.”



Fonte

Artigos Relacionados

Botão Voltar ao Topo