A Rede Neural Foi Ensinada A "animar" Retratos Com Base Em Apenas Uma Imagem Estática - Visão Alternativa

A Rede Neural Foi Ensinada A "animar" Retratos Com Base Em Apenas Uma Imagem Estática - Visão Alternativa
A Rede Neural Foi Ensinada A "animar" Retratos Com Base Em Apenas Uma Imagem Estática - Visão Alternativa

Vídeo: A Rede Neural Foi Ensinada A "animar" Retratos Com Base Em Apenas Uma Imagem Estática - Visão Alternativa

Vídeo: A Rede Neural Foi Ensinada A
Vídeo: Zoologia - Filo 7-Artrópodes 2024, Pode
Anonim

Especialistas russos do Samsung AI Center-Moscow, em colaboração com engenheiros do Instituto de Ciência e Tecnologia Skolkovo, desenvolveram um sistema capaz de criar imagens animadas realistas de rostos humanos com base em apenas alguns quadros humanos estáticos. Normalmente, neste caso, é necessário o uso de grandes bancos de dados de imagens, porém, no exemplo apresentado pelos desenvolvedores, o sistema foi treinado para criar uma imagem animada de um rosto humano a partir de apenas oito frames estáticos, e em alguns casos um bastava. Para obter mais detalhes sobre o desenvolvimento, consulte um artigo publicado no repositório online ArXiv.org.

Image
Image

Como regra, é bastante difícil reproduzir um módulo personalizado fotorrealista de um rosto humano devido à alta complexidade fotométrica, geométrica e cinemática de reproduzir a cabeça humana. Isso se explica não apenas pela complexidade de modelar o rosto como um todo (para isso, há um grande número de abordagens para modelar), mas também pela complexidade de modelar certas características: a cavidade oral, o cabelo e assim por diante. O segundo fator complicador é nossa tendência de detectar até mesmo pequenas falhas no modelo acabado de cabeças humanas. Essa baixa tolerância para erros de modelagem explica a prevalência atual de avatares não fotorrealistas usados em teleconferências.

Segundo os autores, o sistema, denominado aprendizagem Fewshot, é capaz de criar modelos muito realistas de cabeças falantes de pessoas e até pinturas de retratos. Os algoritmos sintetizam a imagem da cabeça de uma mesma pessoa com as linhas de referência do rosto retiradas de outro fragmento do vídeo, ou usando os pontos de referência do rosto de outra pessoa. Como fonte de material para treinamento do sistema, os desenvolvedores usaram um extenso banco de dados de imagens de vídeos de celebridades. Para obter a cabeça falante mais precisa possível, o sistema precisa usar mais de 32 imagens.

Para criar imagens faciais animadas mais realistas, os desenvolvedores usaram desenvolvimentos anteriores em modelagem adversarial generativa (GAN, onde uma rede neural pensa nos detalhes de uma imagem, de fato, tornando-se um artista), bem como uma abordagem de meta-aprendizagem de máquina, onde cada elemento do sistema é treinado e projetado para resolver tarefa específica.

Esquema de meta-aprendizagem
Esquema de meta-aprendizagem

Esquema de meta-aprendizagem.

Image
Image
Image
Image

Vídeo promocional:

Três redes neurais foram utilizadas para processar imagens estáticas da cabeça das pessoas e transformá-las em animadas: Embedder (rede de implementação), Generator (rede de geração) e Discriminator (rede discriminadora). A primeira particiona as imagens da cabeça (com pontos de referência faciais aproximados) em vetores de incorporação, que contêm informações independentes da pose, a segunda rede usa os pontos de referência faciais obtidos pela rede de incorporação e gera novos dados com base neles por meio de um conjunto de camadas convolucionais que fornecem resistência a mudanças de escala, deslocamentos, voltas, mudança de ângulo e outras distorções da imagem da face original. Um discriminador de rede é usado para avaliar a qualidade e autenticidade das outras duas redes. Como resultado, o sistema transforma os pontos de referência do rosto de uma pessoa em fotos personalizadas de aparência realista.

Image
Image
Image
Image

Os desenvolvedores enfatizam que seu sistema é capaz de inicializar os parâmetros da rede do gerador e da rede discriminadora individualmente para cada pessoa na imagem, de modo que o processo de aprendizagem pode ser baseado em apenas algumas imagens, o que aumenta sua velocidade, apesar da necessidade de selecionar dezenas de milhões de parâmetros.

Nikolay Khizhnyak

Recomendado: