Os Neurônios Sonham Com Ovelhas Elétricas? O Criador Das Primeiras Redes Neurais Contou Sobre Sua Evolução E O Futuro - Visão Alternativa

2024 Autor: Keith Bush | [email protected]. Última modificação: 2023-12-16 14:42

Jeffrey Hinton é um cocriador do conceito de aprendizado profundo, vencedor do Prêmio Turing de 2019 e engenheiro do Google. Na semana passada, durante uma conferência para desenvolvedores de I / O, a Wired o entrevistou e discutiu seu fascínio pelo cérebro e sua capacidade de modelar um computador com base na estrutura neural do cérebro. Por muito tempo, essas ideias foram consideradas malucas. Uma conversa interessante e divertida sobre a consciência, os planos futuros de Hinton e se os computadores podem ser ensinados a sonhar.

O que acontecerá com as redes neurais?

Vamos começar com os dias em que você escreveu seus primeiros artigos altamente influentes. Todos disseram: "É uma ideia inteligente, mas realmente não podemos projetar computadores dessa maneira." Explique por que você insistiu em si mesmo e por que tinha tanta certeza de que encontrou algo importante.

Pareceu-me que o cérebro não poderia funcionar de outra maneira. Ele deve trabalhar estudando a força das conexões. E se você quiser que um dispositivo faça algo inteligente, você tem duas opções: ou você o programa ou ele aprende. E ninguém programava gente, então tínhamos que estudar. Este método tinha que ser correto.

Explique o que são redes neurais. Explique o conceito original

Você pega elementos de processamento relativamente simples que se assemelham vagamente a neurônios. Eles têm conexões de entrada, cada conexão tem um peso e esse peso pode mudar durante o treinamento. O que o neurônio faz é executar as ações nas conexões multiplicadas pelos pesos, somá-las e, então, decidir se enviará os dados. Se a soma for digitada grande o suficiente, ele produz uma saída. Se o valor for negativo, não envia nada. Isso é tudo. Tudo o que você precisa fazer é conectar uma nuvem desses neurônios a pesos e descobrir como mudar esses pesos, e então eles farão o que quiser. A única questão é como você mudará os pesos.

Vídeo promocional:

Quando você percebeu que esta é uma representação aproximada de como o cérebro funciona?

Oh, sim, tudo foi originalmente planejado. Projetado para se parecer com o cérebro no trabalho.

Então, em algum momento de sua carreira, você começou a entender como o cérebro funciona. Talvez você tivesse doze anos, talvez vinte e cinco. Quando você decidiu tentar modelar computadores como cérebros?

Sim imediatamente. Aquele foi o ponto principal. Toda essa ideia era criar um dispositivo de aprendizagem que aprende como o cérebro, de acordo com as ideias das pessoas sobre como o cérebro aprende, mudando a força das conexões. E não foi ideia minha, Turing teve a mesma ideia. Embora Turing tenha inventado muitos dos fundamentos da ciência da computação padrão, ele acreditava que o cérebro era um dispositivo desorganizado com pesos aleatórios e usava aprendizado por reforço para mudar as conexões, então ele podia aprender qualquer coisa. E ele acreditava que esse é o melhor caminho para a inteligência.

E você seguiu a ideia de Turing de que a melhor maneira de construir uma máquina é projetá-la como o cérebro humano. É assim que o cérebro humano funciona, então vamos criar uma máquina semelhante

Sim, não apenas Turing pensava assim. Muitos pensaram assim.

Quando os tempos sombrios chegaram? Quando aconteceu que outras pessoas que estavam trabalhando nisso e acreditavam que a ideia de Turing estava correta começaram a recuar e você continuou a dobrar sua linha?

Sempre houve um punhado de pessoas que acreditavam, não importa o quê, especialmente no campo da psicologia. Mas, entre os cientistas da computação, acho que na década de 90, aconteceu que os conjuntos de dados eram muito pequenos e os computadores não eram tão rápidos. E com pequenos conjuntos de dados, outros métodos, como máquinas de vetores de suporte, tiveram um desempenho ligeiramente melhor. Eles não ficaram muito envergonhados com o barulho. Então foi tudo triste porque nos anos 80 desenvolvemos um método de retropropagação, que é muito importante para as redes neurais. Achamos que ele resolveria tudo. E eles ficaram confusos por ele não ter decidido nada. A questão estava realmente em uma escala, mas não sabíamos disso.

Por que você achou que não estava funcionando?

Achamos que não funcionava porque não tínhamos algoritmos muito corretos e funções objetivas não muito corretas. Por muito tempo pensei que isso acontecia porque estávamos tentando fazer um aprendizado supervisionado quando você rotulava os dados, e tínhamos que fazer um aprendizado não supervisionado ao aprender a partir de dados não etiquetados. Descobriu-se que a questão era principalmente em escala.

É interessante. Portanto, o problema é que você não tem dados suficientes. Você pensou que tinha a quantidade certa de dados, mas os etiquetou incorretamente. Então você diagnosticou mal o problema?

Achei que o erro era que estamos usando rótulos. A maior parte do seu treinamento acontece sem o uso de rótulos, você está apenas tentando modelar uma estrutura nos dados. Na verdade, ainda penso assim. Acho que, como os computadores ficam mais rápidos, se o computador for rápido o suficiente, para qualquer conjunto de dados de um determinado tamanho, é melhor treinar sem supervisão. E depois de concluir o aprendizado não supervisionado, você pode aprender com menos tags.

Então, nos anos 1990, você continua suas pesquisas, está na academia, ainda está publicando, mas não está resolvendo grandes problemas. Você já teve um momento em que disse: “Quer saber, isso é o suficiente. Vou tentar fazer outra coisa”? Ou você apenas disse a si mesmo que continuaria a ter aprendizado profundo [isto é, o conceito de aprendizado profundo, aprendizado profundo de redes neurais?

Sim. Algo assim deve funcionar. Quer dizer, as conexões no cérebro aprendem de alguma forma, só precisamos descobrir como. E provavelmente há muitas maneiras diferentes de fortalecer as conexões no processo de aprendizagem; o cérebro usa um deles. Pode haver outras maneiras. Mas você definitivamente precisa de algo que possa fortalecer essas conexões enquanto aprende. Eu nunca duvidei disso.

Você nunca duvidou disso. Quando parecia que estava funcionando?

Uma das maiores decepções dos anos 80 foi que se fizéssemos redes com muitas camadas ocultas, não poderíamos treiná-las. Isso não é totalmente verdade, porque você pode treinar processos relativamente simples, como a escrita à mão. Mas não sabíamos como treinar a maioria das redes neurais profundas. E por volta de 2005, descobri uma maneira de treinar redes profundas sem supervisão. Você insere dados, digamos pixels, e treina vários detectores de detalhes, o que explica muito bem por que os pixels eram do jeito que são. Em seguida, você alimenta esses detectores de peças com os dados e treina um conjunto diferente de detectores de peças para que possamos explicar por que detectores de peças específicas têm correlações específicas. Você continua a treinar camada por camada. Mas o mais interessante foique poderia ser decomposto matematicamente e provado que toda vez que você treinar uma nova camada, não necessariamente melhorará o modelo de dados, mas estará lidando com uma série de quão bom é o seu modelo. E essa faixa ficou melhor com cada camada adicionada.

O que você quer dizer com intervalo de qualidade do seu modelo?

Depois de obter o modelo, você pode fazer a pergunta: "Quão incomum esse modelo encontra esses dados?" Você mostra a ela os dados e faz a pergunta: "Você acha tudo isso conforme o esperado ou é incomum?" E isso pode ser medido. E eu queria obter um modelo, um bom modelo que analisasse os dados e dissesse: “Sim, sim. Eu sabia. Isso não é surpreendente ". É sempre muito difícil calcular exatamente o quão incomum um modelo encontrará os dados. Mas você pode calcular o intervalo disso. Podemos dizer que o modelo encontrará esses dados menos incomuns do que isso. E pode ser mostrado que, à medida que novas camadas são adicionadas aos detectores de detalhes, o modelo é formado e, com cada camada adicionada à medida que encontra os dados, o intervalo de compreensão de quão incomuns são encontrados os dados se torna melhor.

Então, por volta de 2005, você fez essa descoberta matemática. Quando você começou a receber as respostas certas? Com quais dados você trabalhou? Sua primeira descoberta foi com dados de fala, certo?

Eles eram apenas números escritos à mão. Muito simples. E na mesma época, o desenvolvimento de GPUs (unidades de processamento gráfico) começou. E as pessoas que faziam redes neurais começaram a usar GPUs em 2007. Tive um aluno muito bom que começou a usar GPUs para encontrar estradas em fotografias aéreas. Ele escreveu o código, que foi então adotado por outros alunos usando a GPU para reconhecer fonemas na fala. Eles usaram essa ideia de pré-treinamento. E quando o pré-treinamento foi feito, eles apenas penduraram as tags no topo e usaram a propagação reversa. Descobriu-se que é possível criar uma rede muito profunda que foi previamente treinada desta forma. E então a retropropagação pode ser aplicada e realmente funcionou. No reconhecimento de fala, funcionou muito bem. No começo, entretanto,não era muito melhor.

Era melhor do que o reconhecimento de fala disponível no mercado? Ignorado pelos melhores artigos científicos sobre reconhecimento de fala?

Em um conjunto de dados relativamente pequeno chamado TIMIT, foi um pouco melhor do que o melhor trabalho acadêmico. A IBM também fez muito trabalho.

As pessoas rapidamente perceberam que tudo isso - uma vez que ignora os modelos padrão que estiveram em desenvolvimento por 30 anos - funcionaria muito bem se fosse desenvolvido um pouco. Meus graduados foram para a Microsoft, IBM e Google, e o Google rapidamente criou um reconhecedor de fala funcional. Em 2012, esse trabalho, que havia sido feito em 2009, havia chegado ao Android. O Android de repente ficou muito melhor no reconhecimento de voz.

Conte-me sobre um momento em que você, que guarda essas ideias há 40 anos, publica sobre esse assunto há 20 anos, de repente passa por cima de seus colegas. Como é essa sensação?

Bem, naquela época eu só tinha guardado essas ideias por 30 anos!

Certo, certo

Tive a sensação de que tudo isso finalmente havia se transformado em um problema real.

Você se lembra quando obteve os dados que indicam isso?

Não.

OK. Então você começou a imaginar que isso funciona com reconhecimento de fala. Quando você começou a aplicar redes neurais a outros problemas?

No início, começamos a aplicá-los a todos os tipos de problemas. George Dahl, com quem trabalhamos originalmente com reconhecimento de fala, usou-os para prever se uma molécula poderia se ligar a algo e se tornar um bom remédio. E houve uma competição. Ele simplesmente aplicou nossa tecnologia padrão, construída para reconhecimento de fala, para prever a atividade da droga e venceu a competição. Foi um sinal de que estamos fazendo algo muito versátil. Então apareceu um aluno que disse: “Sabe, Jeff, essa coisa funciona com reconhecimento de imagem, e Fei-Fei Li criou um conjunto de dados adequado para isso. Há uma competição pública, vamos fazer alguma coisa."

Obtivemos resultados que ultrapassaram em muito a visão computacional padrão. Era 2012.

Ou seja, nessas três áreas você se destacou: modelagem química, fala, voz. Onde você falhou?

Você entende que os contratempos são temporários?

Bem, o que separa as áreas onde tudo funciona mais rápido e as áreas onde leva mais tempo? Parece que processamento visual, reconhecimento de fala e algo como as coisas humanas básicas que fazemos com a percepção sensorial são considerados as primeiras barreiras a superar, certo?

Sim e não, porque há outras coisas que fazemos bem - as mesmas habilidades motoras. Somos muito bons em controle motor. Nossos cérebros estão definitivamente equipados para isso. E só agora as redes neurais estão começando a competir com as melhores outras tecnologias para isso. Eles vão vencer no final, mas agora estão apenas começando a vencer.

Acho que pensar, o pensamento abstrato é a última coisa que aprendemos. Acho que estarão entre as últimas coisas que essas redes neurais aprenderão a fazer.

E você continua dizendo que as redes neurais prevalecerão em todos os lugares

Bem, somos redes neurais. Tudo o que podemos, eles podem.

É verdade, mas o cérebro humano está longe de ser a máquina de computação mais eficiente já construída

Definitivamente não.

Definitivamente não é meu cérebro humano! Existe uma maneira de modelar máquinas que são muito mais eficientes do que o cérebro humano?

Filosoficamente, não tenho nenhuma objeção à ideia de que poderia haver uma maneira completamente diferente de fazer tudo isso. Talvez se você começar com a lógica, tentar automatizar a lógica, chegar a algum provador de teoremas sofisticado, a razão, e então decidir que é por meio do raciocínio que você chega à percepção visual, pode ser que essa abordagem vença. Mas ainda não. Não tenho nenhuma objeção filosófica a tal vitória. Apenas sabemos que o cérebro é capaz disso.

Mas também há coisas que nosso cérebro não consegue fazer bem. Isso significa que as redes neurais também não serão capazes de operá-las bem?

Muito possivelmente, sim.

E há um problema separado, que é que não entendemos totalmente como as redes neurais funcionam, certo?

Sim, realmente não entendemos como eles funcionam.

Não entendemos como as redes neurais de cima para baixo funcionam. Este é um elemento básico de como as redes neurais funcionam que não entendemos. Explique isso e deixe-me fazer a próxima pergunta: se sabemos como tudo funciona, como funciona então?

Quando você olha para os modernos sistemas de visão por computador, a maioria deles é voltada para o futuro; eles não usam conexões de feedback. E há algo mais nos modernos sistemas de visão por computador que são muito propensos a erros adversários. Você pode mudar ligeiramente alguns pixels, e o que era uma imagem de panda e ainda parece exatamente como um panda para você, de repente se tornará um avestruz no seu entendimento de uma rede neural. Obviamente, o método de substituir os pixels é pensado de forma a enganar a rede neural e fazê-la pensar em um avestruz. Mas a questão é que ainda é um panda para você.

Inicialmente, pensamos que tudo funcionou muito bem. Mas então, diante do fato de que estavam olhando para um panda e tinham certeza de que era um avestruz, ficamos preocupados. E acho que parte do problema é que eles não estão tentando reconstruir a partir de visualizações de alto nível. Eles tentam aprender isoladamente, onde apenas as camadas de detectores de detalhes estão aprendendo, e todo o objetivo é alterar os pesos para encontrar melhor a resposta certa. Recentemente, descobrimos, ou Nick Frost descobriu, em Toronto, que adicionar reconstrução aumenta a resistência adversária. Eu acho que na visão humana, a reconstrução é usada para aprender. E porque aprendemos muito ao fazer a reconstrução, somos muito mais resistentes a ataques adversários.

Você acredita que a comunicação downstream em uma rede neural permite testar como algo está sendo reconstruído. Você verifica e se certifica de que é um panda, não um avestruz

Acho isso importante, sim.

Mas os neurocientistas não concordam com isso?

Os cientistas do cérebro não argumentam que, se você tiver duas regiões do córtex no caminho da percepção, sempre haverá conexões reversas. Eles discutem para que serve. Pode ser necessário para atenção, aprendizado ou reconstrução. Ou para todos os três.

E então não sabemos o que é feedback. Você está construindo suas novas redes neurais, partindo do pressuposto de que … não, nem mesmo - você está construindo feedback, porque é necessário para a reconstrução em suas redes neurais, embora você nem mesmo entenda realmente como o cérebro funciona?

Sim.

Não é um truque? Bem, isto é, se você está tentando fazer algo como um cérebro, mas não tem certeza se o cérebro faz isso?

Na verdade não. Eu não estou na neurociência computacional. Não estou tentando modelar como o cérebro funciona. Eu olho para o cérebro e digo: "Funciona, e se quisermos fazer outra coisa que funcione, temos que observar e ser inspirados por isso." Somos inspirados por neurônios, não construindo um modelo neural. Assim, todo o modelo de neurônios que usamos é inspirado pelo fato de que os neurônios têm muitas conexões e mudam de peso.

É interessante. Se eu fosse um cientista da computação trabalhando em redes neurais e querendo contornar Jeff Hinton, uma opção seria construir uma comunicação descendente e basea-la em outros modelos de ciência do cérebro. Com base no treinamento, não na reconstrução

Se houvesse modelos melhores, você teria vencido. Sim.

É muito, muito interessante. Vamos tocar em um tópico mais geral. Portanto, as redes neurais podem resolver todos os problemas possíveis. Existem enigmas no cérebro humano que as redes neurais não podem ou não querem cobrir? Por exemplo, emoções

Não.

Então o amor pode ser reconstruído com uma rede neural? A consciência pode ser reconstruída?

Absolutamente. Depois de descobrir o que essas coisas significam. Somos redes neurais, certo? A consciência é um tópico especialmente interessante para mim. Mas … as pessoas realmente não sabem o que querem dizer com essa palavra. Existem muitas definições diferentes. E acho que é um termo bastante científico. Portanto, se há 100 anos você perguntasse às pessoas: o que é a vida? Eles respondiam: “Bem, os seres vivos têm força vital e, quando morrem, a força vital os deixa. Esta é a diferença entre os vivos e os mortos, ou você tem vitalidade ou não. Agora que não temos força vital, pensamos que esse conceito veio antes da ciência. E quando você começar a entender um pouco sobre bioquímica e biologia molecular, você não precisará mais da força vital, você entenderá como tudo realmente funciona. E a mesma coisa, eu acho, vai acontecer com a consciência. Eu acho que,que a consciência é uma tentativa de explicar os fenômenos mentais usando uma entidade. E essa essência, não é necessária. Uma vez que você possa explicá-lo, você pode explicar como fazemos tudo o que torna as pessoas seres conscientes, explicar os diferentes significados da consciência sem envolver quaisquer entidades especiais.

Acontece que não existem emoções que não possam ser criadas? Não existe pensamento que não possa ser criado? Não há nada que a mente humana seja capaz de que teoricamente não possa ser recriado por uma rede neural em pleno funcionamento, uma vez que realmente entendamos como o cérebro funciona?

John Lennon cantou algo semelhante em uma de suas canções.

Você tem 100% de certeza sobre isso?

Não, sou bayesiano, então tenho 99,9% de certeza.

Ok, então o que é 0,01%?

Bem, poderíamos, por exemplo, fazer parte de uma simulação maior.

Justo. Então, o que aprendemos sobre o cérebro com nosso trabalho em computadores?

Bem, acho que com o que aprendemos nos últimos 10 anos, é interessante que, se você pegar um sistema com bilhões de parâmetros e uma função objetivo - por exemplo, para preencher uma lacuna em uma linha de palavras - ele funciona melhor do que deveria. Funcionará muito melhor do que você imagina. Você pode pensar, e muitas pessoas na pesquisa tradicional de IA pensariam que você pode pegar um sistema com um bilhão de parâmetros, executá-lo em valores aleatórios, medir o gradiente da função objetivo e, em seguida, ajustá-lo para melhorar a função objetivo. Você pode pensar que um algoritmo sem esperança inevitavelmente travaria. Mas não, parece que este é um algoritmo muito bom. E quanto maior a escala, melhor funciona. E essa descoberta foi essencialmente empírica. Havia alguma teoria por trás de tudo, é claro, mas a descoberta foi empírica. E agora,como descobrimos isso, parece mais provável que o cérebro esteja calculando o gradiente de alguma função objetivo e atualizando os pesos e a força da conexão sináptica para acompanhar esse gradiente. Só precisamos descobrir o que é essa função de destino e como ela fica pior.

Mas não entendemos isso com o exemplo do cérebro? Não entendeu a atualização do saldo?

Era teoria. Há muito tempo as pessoas pensavam que era possível. Mas no fundo sempre havia alguns cientistas da computação que diziam: "Sim, mas a ideia de que tudo é aleatório e o aprendizado é devido à descida gradiente não funcionará com um bilhão de parâmetros, você tem que conectar muito conhecimento." Agora sabemos que não é esse o caso. Você pode apenas inserir parâmetros aleatórios e aprender tudo.

Vamos mergulhar um pouco mais fundo. À medida que aprendemos mais e mais, presumivelmente continuaremos a aprender mais e mais sobre como o cérebro humano funciona à medida que conduzimos testes maciços de modelos baseados em nossa compreensão da função cerebral. Depois que entendermos tudo isso melhor, chegará um ponto em que essencialmente reconfiguramos nossos cérebros para nos tornarmos máquinas muito mais eficientes?

Se realmente entendermos o que está acontecendo, podemos melhorar algumas coisas como a educação. E acho que vamos melhorar. Seria muito estranho finalmente entender o que está acontecendo em seu cérebro, como ele aprende, e não se adaptar para aprender melhor.

Como você acha que, em alguns anos, usaremos o que aprendemos sobre o cérebro e como a aprendizagem profunda funciona para transformar a educação? Como você mudaria as aulas?

Não tenho certeza se vamos aprender muito em alguns anos. Acho que vai demorar mais para mudar a educação. Mas por falar nisso, os assistentes [digitais] estão ficando muito inteligentes. E quando os assistentes podem entender as conversas, eles podem conversar e educar as crianças.

E, em teoria, se entendermos melhor o cérebro, podemos programar ajudantes para conversar melhor com as crianças, com base no que elas já aprenderam

Sim, mas não pensei muito nisso. Estou fazendo outra coisa. Mas tudo isso parece bastante semelhante à verdade.

Podemos entender como funcionam os sonhos?

Sim, estou muito interessado em sonhos. Estou tão interessado que tenho pelo menos quatro teorias de sonhos diferentes.

Conte-nos sobre eles - sobre o primeiro, segundo, terceiro, quarto

Há muito tempo, existia esse tipo de coisa chamada redes Hopfield, e eles estudavam as memórias como atratores locais. Hopfield descobriu que se você tentar colocar muitas memórias, elas se bagunçam. Eles pegarão dois atratores locais e os combinarão em um atrator em algum lugar a meio caminho entre eles.

Então Francis Crick e Graham Mitchison vieram e disseram que podemos nos livrar desses falsos baixos aprendendo (isto é, esquecendo o que aprendemos). Desligamos a entrada de dados, colocamos a rede neural em um estado aleatório, deixamos ela se acalmar, dizemos que está ruim, mudamos as conexões para que não caia nesse estado, e assim podemos fazer a rede armazenar mais memórias.

Então Terry Sejnowski e eu entramos e dissemos: "Olha, se não temos apenas os neurônios que guardam as memórias, mas um monte de outros neurônios, podemos encontrar um algoritmo que usa todos esses outros neurônios para ajudar a lembrar as memórias?" … Como resultado, criamos um algoritmo de aprendizado de máquina Boltzmann. E o algoritmo de aprendizado de máquina de Boltzmann tinha uma propriedade extremamente interessante: eu mostro os dados, e eles passam pelo resto das unidades até chegar a um estado muito feliz e, depois disso, aumenta a força de todas as conexões, com base no fato de que duas unidades estão ativas ao mesmo tempo.

Além disso, você deve ter uma fase em que você desliga a entrada, deixa o algoritmo "farfalhar" e o coloca em um estado em que ele fica feliz, para que ele fantasie, e assim que ele tiver uma fantasia, você diz: “Pegue todos os pares de neurônios que são ativos e reduzem a força das conexões."

Eu explico o algoritmo para você como um procedimento. Mas, na realidade, esse algoritmo é um produto da matemática e da pergunta: "Como você precisa mudar essas cadeias de conexões para que essa rede neural com todas essas unidades de dados ocultas não pareça surpreendente?" E deve haver também uma outra fase, que chamamos de fase negativa, quando a rede funciona sem entrada de dados e desaprende, não importa em que estado a coloque.

Sonhamos por muitas horas todas as noites. E se você acordar de repente, pode dizer que acabou de sonhar, porque o sonho está guardado na memória de curto prazo. Sabemos que vemos sonhos por muitas horas, mas pela manhã, depois de acordar, podemos lembrar apenas o último sonho, e não nos lembramos dos outros, o que é muito bem-sucedido, pois pode-se confundi-los com a realidade. Então, por que não nos lembramos de nossos sonhos? Segundo Crick, esse é o significado dos sonhos: desaprender essas coisas. Você meio que aprende o contrário.

Terry Seinovski e eu mostramos que esse é, na verdade, o procedimento de aprendizado de máxima verossimilhança para máquinas Boltzmann. Esta é a primeira teoria sobre sonhos.

Quero passar para suas outras teorias. Mas minha pergunta é: você foi capaz de treinar algum de seus algoritmos de aprendizado profundo para realmente sonhar?

Alguns dos primeiros algoritmos que puderam aprender a trabalhar com unidades ocultas foram as máquinas Boltzmann. Eles foram extremamente ineficazes. Mais tarde, porém, descobri uma maneira de trabalhar com aproximações, que se mostraram eficientes. E isso na verdade serviu de ímpeto para a retomada do trabalho com aprendizado profundo. Essas coisas treinaram uma camada de detectores de recursos por vez. E essa era uma forma eficaz da máquina restritiva de Boltzmann. E então ela fez esse tipo de aprendizado reverso. Mas em vez de adormecer, ela poderia apenas fantasiar um pouco após cada marca de dados.

Ok, os andróides estão realmente sonhando com ovelhas elétricas. Vamos passar para as teorias dois, três e quatro

A teoria dois foi chamada de algoritmo Wake Sleep. Você precisa treinar um modelo gerador. E você tem uma ideia de criar um modelo que pode gerar dados, ter camadas de detectores de recursos e ativar as camadas superior e inferior, e assim por diante, até a ativação de pixels - criando uma imagem, essencialmente. Mas você gostaria de ensinar outra coisa a ela. Você gostaria que ele reconhecesse os dados.

E então você tem que fazer um algoritmo com duas fases. Na fase de despertar, os dados chegam, ele tenta reconhecê-los e, em vez de estudar as conexões que usa para o reconhecimento, estuda as conexões gerativas. Os dados chegam, eu ativo as unidades ocultas. E então tento ensinar essas unidades ocultas a recuperar esses dados. Ele aprende a reconstruir em cada camada. Mas a questão é: como aprender conexões diretas? Portanto, a ideia é que, se você conhecesse as conexões diretas, poderia aprender as conexões reversas, porque poderia aprender a fazer a engenharia reversa.

Agora também acontece que, se você usar junções reversas, também poderá aprender junções diretas, porque você pode simplesmente começar no topo e gerar alguns dados. E como você está gerando dados, você conhece os estados de todas as camadas ocultas e pode estudar conexões diretas para restaurar esses estados. E aqui está o que acontece: se você começar com conexões aleatórias e tentar usar as duas fases alternadamente, terá sucesso. Para que funcione bem, você tem que tentar opções diferentes, mas vai funcionar.

Ok, então e as outras duas teorias? Só faltam oito minutos, acho que não terei tempo para perguntar sobre tudo

Dê-me mais uma hora e contarei sobre as outras duas.

Vamos conversar sobre o que vem a seguir. Para onde está indo sua pesquisa? Que problemas você está tentando resolver agora?

No final das contas, você terá que trabalhar em algo que o trabalho ainda não terminou. Acho que posso muito bem estar trabalhando em algo que nunca vou terminar - chamadas cápsulas, uma teoria sobre como a percepção visual é feita por meio da reconstrução e como a informação é direcionada para os lugares certos. Os dois principais fatores de motivação eram que, nas redes neurais padrão, as informações e a atividade na camada são simplesmente enviadas automaticamente para algum lugar, e você não toma uma decisão sobre para onde enviá-las. A ideia por trás das cápsulas era tomar decisões sobre para onde enviar as informações.

Agora que comecei a trabalhar com cápsulas, pessoas muito inteligentes no Google inventaram transformadores que fazem o mesmo. Eles decidem para onde enviar as informações, e isso é uma grande vitória.

Estaremos de volta no próximo ano para falar sobre as teorias dos sonhos número três e número quatro.

Ilya Khel