A Rede Neural Foi Ensinada A Copiar A Voz Humana Quase Perfeitamente - Visão Alternativa

Índice:

A Rede Neural Foi Ensinada A Copiar A Voz Humana Quase Perfeitamente - Visão Alternativa
A Rede Neural Foi Ensinada A Copiar A Voz Humana Quase Perfeitamente - Visão Alternativa

Vídeo: A Rede Neural Foi Ensinada A Copiar A Voz Humana Quase Perfeitamente - Visão Alternativa

Vídeo: A Rede Neural Foi Ensinada A Copiar A Voz Humana Quase Perfeitamente - Visão Alternativa
Vídeo: Inteligência Artificial CLONA sua voz em apenas 5 segundos. 2024, Abril
Anonim

No ano passado, a empresa de inteligência artificial DeepMind compartilhou detalhes sobre seu novo projeto WaveNet, uma rede neural de aprendizado profundo usada para sintetizar a fala humana realista. Recentemente, foi lançada uma versão aprimorada dessa tecnologia, que será usada como base do assistente digital móvel Google Assistant.

Um sistema de síntese de voz (também conhecido como função text-to-speech, TTS) é geralmente construído em torno de um de dois métodos básicos. O método concatenativo (ou compilação) envolve a construção de frases por meio da coleta de trechos individuais de palavras gravadas e trechos previamente gravados com o envolvimento de um ator de voz. A principal desvantagem desse método é a necessidade de substituir constantemente a biblioteca de sons sempre que houver atualizações ou alterações.

Outro método é chamado de TTS paramétrico, e sua característica é a utilização de conjuntos de parâmetros com os quais o computador gera a frase desejada. A desvantagem do método é que na maioria das vezes o resultado se manifesta na forma de som irreal ou chamado de som robótico.

WaveNet, por outro lado, produz ondas sonoras do zero usando um sistema de rede neural convolucional onde o som é gerado em várias camadas. Primeiro, para treinar a plataforma para sintetizar a fala "ao vivo", ela é "alimentada" com uma grande quantidade de amostras, enquanto se observa quais sinais de som parecem realistas e quais não. Isso dá ao sintetizador de voz a capacidade de reproduzir a entonação naturalista e até mesmo detalhes como lábios estalados. Dependendo de quais amostras de fala são executadas no sistema, isso permite que ele desenvolva um "sotaque" único, que, a longo prazo, pode ser usado para criar muitas vozes diferentes.

Afiado na língua

Talvez a maior limitação do sistema WaveNet fosse que ele exigia uma grande quantidade de poder de computação para funcionar e, mesmo quando essa condição era atendida, não diferia em velocidade. Por exemplo, demorou cerca de 1 segundo para gerar 0,02 segundos de som.

Depois de um ano de trabalho, os engenheiros da DeepMind ainda encontraram uma maneira de melhorar e otimizar o sistema para que agora seja capaz de produzir um som bruto de um segundo em apenas 50 milissegundos, o que é 1000 vezes mais rápido do que suas capacidades originais. Além disso, os especialistas conseguiram aumentar a taxa de amostragem de áudio de 8 bits para 16 bits, o que teve um efeito positivo nos testes com ouvintes. Esses sucessos abriram caminho para o WaveNet se integrar a produtos de consumo, como o Google Assistant.

Vídeo promocional:

Atualmente, o WaveNet pode ser usado para gerar vozes em inglês e japonês por meio do Google Assistant e de todas as plataformas que usam este assistente digital. Uma vez que o sistema pode criar um tipo especial de voz, dependendo de qual conjunto de amostras foi fornecido a ele para treinamento, em um futuro próximo o Google provavelmente apresentará suporte para sintetizar fala realista no WaveNet em outros idiomas, incluindo levá-los em consideração. dialetos locais.

As interfaces de voz estão se tornando cada vez mais comuns em uma ampla variedade de plataformas, mas sua pronunciada natureza não natural do som desativa muitos usuários em potencial. Os esforços da DeepMind para melhorar essa tecnologia certamente contribuirão para a adoção mais ampla de tais sistemas de voz, bem como melhorar a experiência do usuário com seu uso.

Exemplos de fala sintetizada em inglês e japonês usando a rede neural WaveNet podem ser encontrados neste link.

Nikolay Khizhnyak

Recomendado: