Quando A Inteligência Artificial Começará A Dar Voz à Série - Visão Alternativa

Índice:

Quando A Inteligência Artificial Começará A Dar Voz à Série - Visão Alternativa
Quando A Inteligência Artificial Começará A Dar Voz à Série - Visão Alternativa

Vídeo: Quando A Inteligência Artificial Começará A Dar Voz à Série - Visão Alternativa

Vídeo: Quando A Inteligência Artificial Começará A Dar Voz à Série - Visão Alternativa
Vídeo: Questões éticas da Inteligência Artificial / Ethical issues with AI | Ana Sofia Carvalho | TEDxPorto 2024, Abril
Anonim

As editoras russas já estão experimentando a gravação automática de audiolivros; no futuro, a inteligência artificial poderá ser encarregada de traduzir os seriados e dublá-los com as vozes de seus atores favoritos. Sobre os recursos dessas tecnologias e quanto tempo levará para criá-las.

O discurso oral torna-se escrito

No YouTube, as legendas automáticas dos vídeos são criadas por software de reconhecimento de voz e tradução de voz para texto. É baseado em redes neurais de autoaprendizagem. Essa opção tem mais de dez anos, mas o resultado ainda está longe do ideal. Na maioria das vezes, você só consegue captar o significado geral do que foi dito. Qual é a dificuldade?

Digamos, explica Andrey Filchenkov, chefe do laboratório de Aprendizado de Máquina da ITMO University, que estejamos construindo um algoritmo para reconhecimento de fala. Isso requer o treinamento de uma rede neural em uma grande matriz de dados.

Levará centenas, milhares de horas de gravações de fala e sua comparação correta com os textos, incluindo a marcação do início e o fim das frases, a mudança de interlocutores e assim por diante. Isso é chamado de gabinete. Quanto maior for, melhor será o treinamento da rede neural. Corpora realmente grandes foram criados para a língua inglesa, então o reconhecimento é muito melhor. Mas para russo ou, digamos, espanhol, há muito menos dados e, para muitos outros idiomas, não há dados.

“E o resultado é adequado”, conclui o cientista.

“Além disso, avaliamos o significado de uma palavra, de uma frase de um filme não só pelo som, mas também pela entonação do ator e suas expressões faciais. Como você interpreta isso? - acrescenta Sergey Aksenov, professor associado do Departamento de Tecnologia da Informação da Universidade Politécnica de Tomsk.

Vídeo promocional:

“Como lidar com as características da fala fluente? Articulação difusa, rascunho, interjeições, pausas? Afinal, dependendo disso, o significado muda, como em "você não pode ser perdoado". Como ensinar uma máquina a determinar onde o falante tem uma vírgula? E na poesia? " - lista Marina Bolsunovskaya, chefe do laboratório "Sistemas de processamento de dados de streaming industrial" do Centro NTI SPbPU.

Os projetos de maior sucesso, segundo o especialista, são em áreas estreitas. Por exemplo, um sistema para reconhecer a fala profissional dos médicos usando termos médicos, desenvolvido pelo grupo de empresas ODM, ajuda os médicos a manter um histórico médico.

“Aqui você pode delinear claramente a área de assunto e destacar palavras-chave no discurso. O médico enfatiza especificamente certas seções com entonação: queixas do paciente, diagnóstico”, esclarece Bolsunovskaya.

Outro problema é apontado por Mikhail Burtsev, chefe do laboratório de sistemas neurais e aprendizado profundo do MIPT. O fato é que até agora a máquina tem mais sucesso em reconhecer texto quando uma pessoa fala do que várias, como nos filmes.

Tradução com contexto

Vamos pegar um vídeo em inglês, por exemplo, um corte da série de TV "Game of Thrones", e ativar as legendas em russo automáticas. O que vemos provavelmente nos fará rir.

Ainda de * Game of Thrones *
Ainda de * Game of Thrones *

Ainda de * Game of Thrones *.

No entanto, na tradução automática, a tecnologia alcançou um sucesso impressionante. Portanto, o Google Translate traduz textos em idiomas comuns de forma bastante tolerável, muitas vezes apenas uma edição mínima é necessária.

O fato é que o tradutor da rede neural também é treinado em uma grande variedade de dados iniciais corretamente rotulados - um corpus paralelo, que mostra como cada frase no idioma original deve se parecer em russo.

“Construir tais edifícios é muito trabalhoso, caro e demorado, leva meses e anos. Para treinar uma rede neural, você precisa de textos do tamanho da Biblioteca de Alexandria Os modelos são universais, mas muito depende do idioma. Se você fornecer muitos dados, por exemplo, em avar, a tradução será de alta qualidade, mas para avar simplesmente não existe essa quantidade de dados”, diz Andrey Filchenkov.

“A tradução é um produto separado que está relacionado ao original, mas não é igual a ele”, diz Ilya Mirin, diretor da Escola de Economia Digital da Universidade Federal do Extremo Oriente. - Um exemplo típico são as traduções de filmes estrangeiros de Dmitry Puchkov (Goblin) nos anos 90. Só depois de seu trabalho ficou claro o que estava acontecendo ali. Não encontramos nada adequado nas versões em VHS. Como alternativa, tente traduzir para um idioma que você conheça bem, algo do Mestre e Margarita. Por exemplo, “com uma capa preta com forro ensanguentado”. A máquina não pode fazer isso."

As redes neurais aprendem bem com muitos exemplos típicos, mas os filmes estão cheios de significados e conotações complexas, piadas que não são acessíveis à máquina - ela não consegue distingui-los.

“Em todos os episódios da série de animação Futurama há uma referência ao clássico cinema americano - Casablanca, Roman Holiday e assim por diante. Nesses momentos, a fim de captar e recompactar o significado para aqueles que não assistiram a esses filmes, o tradutor precisa chegar a um análogo próximo do contexto russo. Uma tradução automática incorreta pode ser muito desanimadora para o espectador”, continua Mirin.

Para ele, a qualidade da tradução automática está perto de 80%, o resto é uma especificidade que deve ser agregada manualmente, envolvendo especialistas. "E se 20-30 por cento das frases requerem correção manual, então para que serve a tradução automática?" - diz o pesquisador.

“A tradução é a etapa mais problemática”, concorda Sergey Aksenov. - Tudo depende da semântica e do contexto. As ferramentas disponíveis podem ser utilizadas para tradução e dublagem de máquina, por exemplo, desenhos animados infantis com vocabulário simples. Mas com a interpretação de unidades fraseológicas, nomes próprios, palavras que remetem o espectador a algumas realidades culturais, surgem dificuldades.”

Em filmes e vídeos, o contexto é sempre visual e muitas vezes acompanhado de música e ruído. Especulamos a partir da imagem sobre o que o herói está falando. A fala transformada em texto é desprovida dessa informação, então a tradução é difícil. Esta é a situação dos tradutores que trabalham com legendas de texto sem ver o filme. Muitas vezes estão errados. A tradução automática é a mesma história.

Vozes de IA

Para dublar uma série traduzida para o russo, você precisa de um algoritmo para gerar fala natural a partir do texto - um sintetizador. Eles são criados por muitas empresas de TI, incluindo Microsoft, Amazon, Yandex, e estão indo muito bem.

De acordo com Andrey Filchenkov, há alguns anos, um minuto de dublagem de um sintetizador de voz demorava várias horas, agora a velocidade de processamento aumentou muito. A tarefa de síntese de voz para algumas áreas onde diálogos neutros são necessários foi resolvida muito bem.

Muitos já dão por certa uma conversa com um robô ao telefone, a execução de comandos de um navegador de automóveis, um diálogo com Alice em um carro Yandex. Drive. Mas, para dobrar séries de TV, essas tecnologias ainda não são adequadas.

“O problema é emoção e atuação. Aprendemos a tornar a voz da máquina humana, mas ainda está muito longe para que soe apropriada ao contexto e inspire confiança. Uma dublagem pobre pode facilmente matar a percepção de um filme”, disse Filchenkov.

De acordo com Mikhail Burtsev, a síntese da fala é bastante real. No entanto, isso é computacionalmente intensivo e não pode ser feito em tempo real por um preço razoável.

“Existem algoritmos que sintetizam a fala semelhante à de um determinado ator. Este é o timbre, a maneira de falar e muito mais. Portanto, qualquer ator estrangeiro vai realmente falar russo”, prevê Burtsev. Ele espera um progresso notável nos próximos anos.

Sergei Aksenov dá de cinco a dez anos para desenvolver ferramentas para traduzir e dublar obras complexas dos idiomas mais comuns, como o inglês. O cientista cita o exemplo do Skype, que há vários anos demonstrou a possibilidade de organizar aulas online para alunos de línguas diferentes. Mas mesmo assim, o sistema não será o ideal, terá que aprender constantemente: ganhar vocabulário, levar em conta o contexto cultural.

Recomendado: