As Redes Neurais Aprenderam A Ler Pensamentos Em Tempo Real. O Que? Não! - Visão Alternativa

As Redes Neurais Aprenderam A Ler Pensamentos Em Tempo Real. O Que? Não! - Visão Alternativa
As Redes Neurais Aprenderam A Ler Pensamentos Em Tempo Real. O Que? Não! - Visão Alternativa

Vídeo: As Redes Neurais Aprenderam A Ler Pensamentos Em Tempo Real. O Que? Não! - Visão Alternativa

Vídeo: As Redes Neurais Aprenderam A Ler Pensamentos Em Tempo Real. O Que? Não! - Visão Alternativa
Vídeo: Rede neural consegue reconstruir os pensamentos humanos em tempo real a partir de ondas cerebrais 2024, Pode
Anonim

Há alguns dias, o portal de pré-impressão bioRxiv.org publicou o trabalho de pesquisadores russos do Instituto de Física e Tecnologia de Moscou e das empresas Neurobotics and Neuroassistive Technologies, que estão envolvidas na criação de interfaces de neurocomputadores. O artigo argumenta que cientistas e desenvolvedores conseguiram ensinar um algoritmo em tempo real para reconstruir um vídeo visto por uma pessoa usando sinais de EEG. Parece muito legal e interessante - quase como ler a mente. Na verdade, nem tudo, é claro, é tão simples: os computadores não aprenderam a ler pensamentos. Resumindo, o computador aprendeu com a gravação de EEG a determinar qual imagem de cinco classes diferentes previamente conhecidas o sujeito viu. Sobre como o experimento foi construído, quais tarefas os cientistas definiram e por que é improvável que a leitura da mente seja realizada em um futuro próximo, contamos em nosso blog.

Image
Image

De um modo geral, a ideia de ler o sinal elétrico do cérebro e decifrá-lo para que você possa ver o que uma pessoa está pensando ou fazendo em um determinado momento, dado o ritmo do atual progresso tecnológico, não parece tão difícil. Aqui está um sinal, e aqui está o que esse sinal significa: some dois e dois, treine o classificador e obtenha o resultado que precisamos.

O resultado é o que futuristas e pessoas ignorantes chamariam de "leitura da mente". E parece que essa tecnologia pode se encontrar em uma variedade de aplicações: desde interfaces perfeitas entre cérebro e computador, que permitem o controle de próteses inteligentes, até a criação de um sistema que finalmente diz o que seu gato está pensando ali.

Na realidade, é claro, nem tudo é tão simples, e a ideia de criar tal algoritmo quase imediatamente quebra no principal obstáculo: temos que lidar com o cérebro. O cérebro é uma coisa muito complexa: tem mais de 80 bilhões de neurônios e as conexões entre eles são vários milhares de vezes mais.

Mesmo para um leigo, é claro: isso é demais para entendermos pelo que cada célula e seu agregado são responsáveis. Os cientistas ainda não decifraram o conectoma humano - mesmo que estejam tentando fazer isso com relativo sucesso.

Surge uma questão lógica: é mesmo necessário compreender as funções de cada neurônio para representar com precisão o que está acontecendo no cérebro? Não existem mapas funcionais suficientes, por exemplo?

A resposta a essa pergunta, na verdade, deveria ser "sim", mas mesmo aqui não é tão simples. Se a humanidade dependesse da decodificação do conectoma como a única chave para desvendar o mistério do cérebro, estaríamos muito perto hoje. No entanto, sabemos algo sobre como nosso cérebro funciona e, claro, podemos usá-lo com sucesso.

Vídeo promocional:

Um dos exemplos mais brilhantes e óbvios do uso do conhecimento acumulado por cientistas sobre o trabalho do cérebro são, obviamente, as neurointerfaces. De um modo geral, hoje existem realmente tecnologias que permitem ler a atividade cerebral e utilizá-la para controlar, por exemplo, o cursor de um mouse de computador ou mesmo os movimentos de uma prótese.

Existem duas maneiras de obter uma operação eficiente da interface neural. O primeiro método é o dos potenciais evocados: olhamos para a curva da atividade elétrica de certas partes do cérebro e selecionamos nela aquelas mudanças no sinal que, como sabemos com certeza, aparecem em determinado momento após a apresentação do estímulo.

A segunda maneira é não depender de nenhum estímulo, mas usar a imaginação da pessoa para gerar um sinal elétrico que possa ser lido. Por exemplo, uma pessoa pode ser solicitada a visualizar como move a perna ou o braço.

Ambos os métodos apresentam desvantagens significativas. A primeira é prejudicada pelo fato de que o número de potenciais evocados de forma confiável que conhecemos não é tão grande: seu número não pode cobrir exatamente todas as ações possíveis realizadas por uma pessoa. A desvantagem do segundo é que um longo treinamento é necessário para atingir pelo menos algum efeito.

Os autores do preprint decidiram combinar as duas abordagens para criar interfaces de neurocomputadores, acreditando corretamente que isso salvaria os dois métodos de limitações significativas e permitiria o desenvolvimento de um método novo e mais eficaz para trabalhar com neurointerfaces hoje.

Também foi assumido que este método será fechado (loop fechado), ou seja, o resultado obtido com o seu auxílio, por sua vez, afetará o funcionamento do algoritmo. Mas mais sobre isso mais tarde.

No início, o algoritmo divide todas as imagens em sinais-componentes separados, distribuídos no espaço vetorial, com a ajuda dos quais eles podem ser correlacionados com certos sinais cerebrais registrados usando o EEG.

Neste estágio inicial, um classificador binário é usado - grosso modo, o "dois e dois": tendo um sinal bastante limpo (a gravação de EEG foi limpa de artefatos motores), você pode escolher um ou outro com uma precisão maior do que um acerto aleatório.

Em seus experimentos, os cientistas usaram vídeos de objetos de cinco classes: imagens de pessoas, cachoeiras, formas geométricas abstratas, esportes radicais e carros Goldberg. Por um lado, tal conjunto parece estranho, mas, por outro, parece que todos esses objetos são muito diferentes uns dos outros. Na verdade, há algo em comum entre rostos humanos e formas geométricas abstratas?

Enquanto isso, de acordo com o classificador binário, figuras abstratas e rostos humanos são indistinguíveis umas das outras: os resultados de nove entre 17 participantes do estudo mostram que a interface neural, aparentemente, não conseguiu distinguir entre eles. Mas as máquinas de Goldberg e as mesmas faces, do ponto de vista do cérebro, pelo contrário, diferem bem umas das outras.

Resultados da classificação. A - formas abstratas, W - cachoeiras, HF - rostos humanos, GM - Carros Goldberg, E - esportes radicais
Resultados da classificação. A - formas abstratas, W - cachoeiras, HF - rostos humanos, GM - Carros Goldberg, E - esportes radicais

Resultados da classificação. A - formas abstratas, W - cachoeiras, HF - rostos humanos, GM - Carros Goldberg, E - esportes radicais.

À primeira vista, não é muito claro por que isso está acontecendo: em vez disso, as mesmas máquinas e formas geométricas não podem ser distinguidas umas das outras. Tudo fica um pouco mais claro se você olhar um exemplo de frames dos vídeos usados.

Imagens de amostra de cinco classes
Imagens de amostra de cinco classes

Imagens de amostra de cinco classes.

Muito provavelmente (nós, é claro, só podemos supor aqui), o sucesso do classificador depende de quanto as imagens usadas nas duas classes diferem entre si em algumas características superficiais e básicas - em primeiro lugar, em cores. Isso também se correlaciona bem com o fato de que a dimensão do espaço latente no autoencoder é 10.

Em geral, para classificar imagens de cinco classes, basta uma dimensão de cinco, mas neste caso será feito com o máximo do histograma de cores - o que significa que a dimensão 10 não vai melhorar muito e clarificar o resultado.

Não está muito claro por que os autores não usaram um classificador linear para cinco classes de uma vez em vez de dez classificadores binários: provavelmente, teria sido melhor.

Em seguida, vem a etapa de reconstrução da imagem resultante. O fato de sair borrado é compreensível - o ponto está na mesma dimensão do espaço latente. Mas aqui duas coisas confundem.

A primeira é que as imagens originais e reconstruídas são muito semelhantes entre si. Aqui, é claro, não quero incomodar ninguém (inclusive nós mesmos - todos somos a favor do progresso), mas isso não se deve ao fato de o sinal ser tão bem gravado e decodificado (e até em tempo real!), Mas devido ao fato de que o algoritmo restaura exatamente as imagens que já possuía.

Além disso, nem sempre isso funciona tão bem quanto gostaríamos: se, por exemplo, você olhar o vídeo do sistema, vai perceber que no vídeo com um homem chorando a interface neural por algum motivo vê uma mulher. Isso porque o algoritmo não reconstrói imagens, mas objetos de uma determinada classe: mesmo que o faça de forma bastante eficiente, nada impede que o algoritmo veja um barco na imagem de uma motocicleta - simplesmente porque eles pertencem à mesma classe.

Portanto, o que aparece na tela durante a reconstrução geralmente é apenas uma imagem média de todos os objetos de classe usados.

Quanto à importância de usar um sistema fechado, então nem tudo é muito claro: ao realizar uma tarefa, a pessoa vê tanto uma gravação de sinais de EEG quanto uma imagem emergindo gradualmente de sua cabeça. É difícil dizer se isso realmente ajuda - os autores não compararam o desempenho da interface com e sem reforço. Mas, à primeira vista, parece que não. Se ajudar, realmente quero saber como.

Em geral, podemos concluir com segurança que os computadores não aprenderam a ler pensamentos. E eles nem aprenderam a recriar o vídeo. Tudo o que aprenderam a fazer, com base no trabalho de cientistas, é classificar os objetos que viram em cinco classes com base em alguns critérios básicos. Os computadores foram capazes de fazer isso antes? Claro que sim. Existe um cérebro aqui? Claro que há: mas é o cérebro que vê, não o cérebro que entende exatamente o que ele viu.

Elizaveta Ivtushok

Recomendado: