Como Funciona A Inteligência Artificial: Reconhecimento De Voz - Visão Alternativa

Índice:

Como Funciona A Inteligência Artificial: Reconhecimento De Voz - Visão Alternativa
Como Funciona A Inteligência Artificial: Reconhecimento De Voz - Visão Alternativa

Vídeo: Como Funciona A Inteligência Artificial: Reconhecimento De Voz - Visão Alternativa

Vídeo: Como Funciona A Inteligência Artificial: Reconhecimento De Voz - Visão Alternativa
Vídeo: Inteligência Artificial e Tecnologia Assistiva: diálogos entre a teoria e prática 2024, Setembro
Anonim

Cada um de nós se depara com um fenômeno tão misterioso como a inteligência artificial na vida cotidiana - é ele quem permite que os assistentes de voz e os motores de busca reconheçam a fala humana e adivinhem os desejos dos usuários. Hoje vamos falar sobre exatamente como essa tecnologia está organizada e quais as perspectivas para essa área de desenvolvimento no futuro próximo.

Inteligência artificial é um termo muito amplo, dentro do qual muitos algoritmos já existem e ainda estão em desenvolvimento, projetados para realizar uma ampla gama de tarefas práticas. Mas do que os programas modernos de inteligência artificial são realmente capazes e por quais princípios eles são guiados durante seu trabalho? Hoje vamos falar sobre uma das principais características da mente da máquina, que cada um de nós encontra regularmente na vida cotidiana - a capacidade dos assistentes de voz de reconhecer a fala humana.

Reconhecimento de voz

Para medir a voz, o programa usa uma série de parâmetros de som: a frequência e a duração da onda sonora em um determinado momento. Por exemplo, quando você conversa com a popular assistente de voz Alexa, o software divide sua voz em slides de 25 milissegundos e, em seguida, converte cada um dos segmentos em assinaturas digitais. Depois disso, os blocos de assinatura são comparados com o catálogo interno de sons do programa até que o número de correspondências seja alto o suficiente para que o AI "traduza" os números em uma consulta alfabética que ele entende.

Image
Image

Observe a tela do seu telefone enquanto usa o Siri ou o Google Assistant e você verá que o vocabulário muda conforme você fala as palavras. Isso ocorre devido ao fato de que a cada "etapa" seguinte o software também compara o resultado obtido com o banco de dados interno e constrói palavras em função das correspondências. De acordo com Rohit Prasad, cientista-chefe da divisão Alexa da Amazon, "o modelo de linguagem aprende muitos bilhões de palavras na forma de texto". A ordem das palavras também desempenha um papel importante: isso pode ser percebido com a ajuda do mecanismo de busca Google usual, que às vezes fornece dados diferentes para consultas idênticas, nas quais apenas algumas palavras são reorganizadas.

Vídeo promocional:

Perspectivas de reconhecimento de voz

Alan Black, do Carnegie Institute for Language Technology, argumenta que, para todos os profissionais de grandes empresas, o mais interessante é encontrar o limite de seu próprio sistema. “Quando o programa diz: 'Não consigo fazer isso', a situação fica muito interessante”, brinca. No entanto, isso é realmente verdade: responder a solicitações imprevisíveis de usuários é até mesmo uma das principais tarefas que os círculos de estudantes que estão competindo pelo Prêmio Alexa - e isso representa uns colossais $ 2,5 milhões - estão investigando. A tarefa deles é criar um chatbot projetado para se comunicar com pessoas que fazem perguntas consistentes e significativas. As informações, neste caso, são atualizadas a cada 20 minutos. Parece uma tarefa muito fácil, mesmo para um programador médio,mas, na prática, a comunicação do programa com pessoas reais está sempre associada a desvios do tema do diálogo, frases espontâneas e outras violações. Um programa que aprende a trabalhar com eles e também com uma pessoa real será um grande avanço para toda a indústria de IA.

Vasily Makarov

Recomendado: