Inteligência Artificial E Jeffrey Hinton: O Pai Do Aprendizado Profundo - Visão Alternativa

Índice:

Inteligência Artificial E Jeffrey Hinton: O Pai Do Aprendizado Profundo - Visão Alternativa
Inteligência Artificial E Jeffrey Hinton: O Pai Do Aprendizado Profundo - Visão Alternativa

Vídeo: Inteligência Artificial E Jeffrey Hinton: O Pai Do Aprendizado Profundo - Visão Alternativa

Vídeo: Inteligência Artificial E Jeffrey Hinton: O Pai Do Aprendizado Profundo - Visão Alternativa
Vídeo: This Canadian Genius Created Modern AI 2024, Pode
Anonim

Inteligência artificial. Quanto já se falou dele, mas ainda nem começamos a conversar de verdade. Quase tudo o que você ouve sobre o progresso da inteligência artificial é baseado em um avanço que já tem trinta anos. Manter a dinâmica do progresso exigirá contornar restrições severas e principais. A seguir, na primeira pessoa - James Somers.

Estou parado onde logo estará o centro do mundo, ou simplesmente em uma grande sala no sétimo andar de uma torre reluzente no centro de Toronto - para qual lado você olha. Estou acompanhado por Jordan Jacobs, cofundador deste lugar: The Vector Institute, que abre suas portas neste outono e promete ser o epicentro global da inteligência artificial.

Estamos em Toronto porque Jeffrey Hinton está em Toronto. E Jeffrey Hinton é o pai do "aprendizado profundo", a técnica por trás do hype da IA. “Em 30 anos, olharemos para trás e diremos que Jeff é o Einstein da IA, aprendizado profundo, tudo o que chamamos de inteligência artificial”, diz Jacobs. De todos os pesquisadores da IA, Hinton é citado com mais frequência do que os três que o seguiram juntos. Seus alunos de graduação e pós-graduação vão trabalhar no laboratório de IA da Apple, Facebook e OpenAI; O próprio Hinton é o cientista-chefe da equipe Google Brain AI. Quase todos os avanços em IA na última década - em tradução, reconhecimento de voz, reconhecimento de imagem e jogos - têm algo a ver com o trabalho de Hinton.

O Vector Institute, um monumento ao surgimento das ideias de Hinton, é um centro de pesquisa onde empresas de todos os Estados Unidos e Canadá - como Google, Uber e NVIDIA - patrocinam esforços para comercializar tecnologias de IA. O dinheiro está entrando mais rápido do que Jacobs pode pedir; dois de seus cofundadores pesquisaram empresas na área de Toronto, e a demanda por especialistas em IA foi 10 vezes maior do que o Canadá fornece a cada ano. O Vector Institute é, de certa forma, uma terra virgem inexplorada para tentar mobilizar o mundo em torno do aprendizado profundo: investir, ensinar, aprimorar e aplicar essa técnica. Data centers estão sendo construídos, arranha-céus estão cheios de startups e gerações de estudantes estão chegando à região.

Quando você está no chão do Vector, tem a sensação de que está no início de algo. Mas o aprendizado profundo é, em sua essência, muito antigo. O artigo inovador de Hinton, escrito com David Rumelhart e Ronald Williams, foi publicado em 1986. O trabalho descreveu detalhadamente o método de retropropagação do erro (retropropagação), em suma. Backprop, de acordo com John Cohen, é "tudo em que o aprendizado profundo se baseia - tudo".

Em sua raiz, a IA hoje é aprendizado profundo, e aprendizado profundo é backprop. O que é espantoso considerando que o backprop tem mais de 30 anos. Basta entender como isso aconteceu: como a tecnologia pôde esperar tanto tempo e depois causar uma explosão? Porque depois de conhecer a história do backprop, você entenderá o que está acontecendo com a IA agora, e também que podemos não estar no início da revolução. Talvez estejamos no final de um.

A caminhada do Vector Institute até o escritório de Hinton no Google, onde ele passa a maior parte de seu tempo (ele agora é professor emérito da Universidade de Toronto) é uma espécie de anúncio ao vivo da cidade, pelo menos no verão. Torna-se claro por que Hinton, que é originalmente do Reino Unido, mudou-se para cá na década de 1980 depois de trabalhar na Carnegie Mellon University em Pittsburgh.

Vídeo promocional:

Talvez não estejamos bem no início da revolução

Toronto é a quarta maior cidade da América do Norte (depois da Cidade do México, Nova York e Los Angeles) e certamente é mais diversificada: mais da metade da população nasceu fora do Canadá. E você pode ver isso quando você anda pela cidade. A multidão é multinacional. Há saúde gratuita e boas escolas, as pessoas são amigáveis, os políticos são relativamente esquerdistas e estáveis; tudo isso atrai gente como Hinton, que diz que deixou os Estados Unidos por causa do Irangate (o Irã-Contra é um grande escândalo político nos Estados Unidos na segunda metade da década de 1980; então, ficou sabendo que certos membros da administração americana organizaram secretamente fornecimento de armas ao Irão, violando assim o embargo de armas contra aquele país). É aqui que nossa conversa começa antes do almoço.

“Muitos pensaram que os Estados Unidos poderiam invadir a Nicarágua”, diz ele. "Por alguma razão, eles acreditaram que a Nicarágua pertence aos Estados Unidos." Ele diz que recentemente fez um grande avanço no projeto: “Uma engenheira júnior muito boa começou a trabalhar comigo”, uma mulher chamada Sarah Sabour. Sabur é iraniano e teve seu visto negado para trabalhar nos Estados Unidos. O escritório do Google em Toronto o retirou.

Hinton tem 69 anos. Ele tem um rosto inglês afilado e fino, com uma boca fina, orelhas grandes e um nariz orgulhoso. Ele nasceu em Wimbledon e nas conversas lembra ao narrador um livro infantil sobre ciência: curioso, atraente, tentando explicar tudo. Ele é engraçado e toca um pouco para o público. Dói-lhe sentar-se devido a problemas nas costas, por isso não pode voar e, no consultório do dentista, deita-se sobre um aparelho que se assemelha a uma prancha de surf.

Image
Image

Na década de 1980, Hinton era, como é agora, um especialista em redes neurais, um modelo bastante simplificado da rede de neurônios e sinapses em nossos cérebros. No entanto, na época, havia um consenso de que as redes neurais eram um beco sem saída na pesquisa de IA. Embora a primeira rede neural, Perceptron, tenha sido desenvolvida na década de 1960 e tenha sido considerada o primeiro passo em direção à inteligência de máquina de nível humano, em 1969 Marvin Minsky e Seymour Papert provaram matematicamente que tais redes só podem realizar funções simples. Essas redes tinham apenas duas camadas de neurônios: uma camada de entrada e uma camada de saída. Redes com um grande número de camadas entre os neurônios de entrada e saída poderiam, em teoria, resolver uma grande variedade de problemas, mas ninguém sabia como treiná-los, portanto, na prática, eram inúteis. Por causa dos Perceptrons, quase todo mundo abandonou a ideia de redes neurais, com algumas exceções.incluindo Hinton.

A descoberta de Hinton em 1986 foi mostrar que a retropropagação pode treinar uma rede neural profunda com mais de duas ou três camadas. Mas demorou mais 26 anos antes que o poder da computação aumentasse. Em um artigo de 2012, Hinton e dois estudantes de Toronto mostraram que redes neurais profundas, treinadas com backprop, superaram os melhores sistemas de reconhecimento de imagem. O Deep Learning começou a ganhar força. O mundo decidiu durante a noite que a IA assumiria pela manhã. Para Hinton, essa foi uma vitória bem-vinda.

Campo de distorção da realidade

Uma rede neural é geralmente representada como um sanduíche, camadas das quais são sobrepostas umas às outras. Essas camadas contêm neurônios artificiais, que são essencialmente pequenas unidades computacionais que disparam - como um neurônio real - e transmitem essa excitação aos outros neurônios aos quais estão conectados. A excitação de um neurônio é representada por um número, digamos 0,13 ou 32,39, que determina o grau de excitação do neurônio. E há outro número importante, em cada uma das conexões entre os dois neurônios, que determina quanta excitação deve ser transferida de um para o outro. Este número modela a força das sinapses entre neurônios no cérebro. Quanto maior o número, mais forte é a conexão, o que significa que mais excitação flui de um para o outro.

Uma das aplicações de maior sucesso das redes neurais profundas tem sido o reconhecimento de imagens. Hoje existem programas que podem reconhecer se há um cachorro-quente na foto. Há cerca de dez anos, eles eram impossíveis. Para fazê-los funcionar, primeiro você precisa tirar uma foto. Para simplificar, digamos que esta é uma imagem em preto e branco de 100 x 100 pixels. Você alimenta a rede neural definindo o disparo de cada neurônio simulado na camada de entrada de modo que seja igual ao brilho de cada pixel. Esta é a camada inferior do sanduíche: 10.000 neurônios (100 x 100) representando o brilho de cada pixel da imagem.

Então você conecta essa grande camada de neurônios a outra grande camada de neurônios, já mais alta, digamos, vários milhares, e eles, por sua vez, a outra camada de vários milhares de neurônios, mas menos, e assim por diante. Finalmente, a camada superior do sanduíche - a camada de saída - consistirá em dois neurônios - um representando o cachorro-quente e o outro não o cachorro-quente. A ideia é treinar a rede neural para disparar apenas o primeiro desses neurônios se houver um cachorro-quente na foto, e o segundo, se não houver. Backprop, a técnica de retropropagação na qual Hinton construiu sua carreira, faz exatamente isso.

Image
Image

O Backprop é extremamente simples, embora funcione melhor com grandes quantidades de dados. É por isso que o big data é tão importante para a IA - porque o Facebook e o Google são tão apaixonados por isso, e porque o Vector Institute decidiu se conectar com os quatro maiores hospitais do Canadá e compartilhar dados.

Nesse caso, os dados assumem a forma de milhões de imagens, algumas com cachorros-quentes, outras sem; o truque é marcar essas imagens como cachorros-quentes. Quando você cria uma rede neural pela primeira vez, as conexões entre os neurônios têm pesos aleatórios - números aleatórios que dizem quanta excitação é transmitida em cada conexão. Como se as sinapses do cérebro ainda não estivessem sintonizadas. O objetivo do backprop é alterar esses pesos para que a rede funcione: de modo que, quando você alimentar a imagem do cachorro-quente na camada mais inferior, o neurônio do cachorro-quente na camada mais superior dispare.

Digamos que você tire a primeira foto do tutorial de piano. Você está convertendo as intensidades de pixel de uma imagem 100 x 100 em 10.000 números, um para cada neurônio na camada inferior da rede. À medida que a excitação se espalha pela rede de acordo com a força da conexão dos neurônios nas camadas adjacentes, tudo gradualmente chega à última camada, um dos dois neurônios que determinam se há um cachorro-quente na foto. Como esta é a imagem de um piano, o neurônio do cachorro-quente deve mostrar zero e o neurônio não-cachorro-quente deve mostrar um número maior. Digamos que as coisas não funcionem assim. Digamos que a rede esteja errada sobre a imagem. Backprop é um procedimento para fortalecer a força de cada conexão na rede, permitindo corrigir o erro no exemplo de treinamento dado.

Como funciona? Você começa com os dois últimos neurônios e descobre o quão errados eles estão: qual é a diferença entre seus números de disparo e o que realmente deveria ser. Em seguida, você observa cada conexão que leva a esses neurônios - descendo pelas camadas - e determina sua contribuição para o erro. Continue fazendo isso até chegar ao primeiro conjunto de conexões na parte inferior da rede. Neste ponto, você sabe como a conexão individual contribui para o erro geral. Por fim, você altera todos os pesos para reduzir a chance geral de erro. Essa chamada "técnica de propagação de erros" é que você meio que executa os erros de volta pela rede, começando na outra extremidade, na saída.

O incrível começa a acontecer quando você faz isso com milhões ou bilhões de imagens: a rede começa a determinar bem se uma imagem é um cachorro-quente ou não. E o que é ainda mais notável é que as camadas individuais dessas redes de reconhecimento de imagem começam a "ver" imagens da mesma forma que nosso próprio sistema visual. Ou seja, a primeira camada detecta contornos - os neurônios são disparados quando há contornos e não são disparados quando não existem; a próxima camada define conjuntos de caminhos, como cantos; a próxima camada começa a distinguir formas; a próxima camada encontra todos os tipos de elementos como "pão aberto" ou "pão fechado" porque os neurônios correspondentes são ativados. A rede se organiza em camadas hierárquicas, mesmo sem ser programada dessa forma.

A verdadeira inteligência não se confunde quando o problema muda ligeiramente.

Isso é o que surpreendeu tanto a todos. Não é tanto que as redes neurais sejam boas em classificar imagens de cachorro-quente: elas constroem representações de ideias. Com o texto, isso se torna ainda mais óbvio. Você pode alimentar o texto da Wikipedia, muitos bilhões de palavras, em uma rede neural simples, ensinando-a a dotar cada palavra com números correspondentes às excitações de cada neurônio na camada. Se você pensar em todos esses números como coordenadas em um espaço complexo, encontrará um ponto, conhecido neste contexto como vetor, para cada palavra naquele espaço. Então você treina a rede para que as palavras que aparecem lado a lado nas páginas da Wikipedia sejam dotadas de coordenadas semelhantes - e voila, algo estranho acontece: palavras com significados semelhantes aparecerão lado a lado neste espaço. "Mad" e "chateado" estarão lá; "Três" e "sete" também. Além disso,A aritmética vetorial permite que você subtraia o vetor "França" de "Paris", adicione-o a "Itália" e encontre "Roma" nas proximidades. Ninguém disse à rede neural que Roma é para a Itália o mesmo que Paris é para a França.

“É incrível”, diz Hinton. "É chocante." As redes neurais podem ser vistas como uma tentativa de pegar coisas - imagens, palavras, gravações de conversas, dados médicos - e colocá-las, como dizem os matemáticos, em um espaço vetorial multidimensional no qual a proximidade ou distância das coisas refletirá os aspectos mais importantes do mundo real. Hinton acredita que é isso que o cérebro faz. “Se você quer saber o que é um pensamento”, diz ele, “posso transmiti-lo a você em uma série de palavras. Posso dizer: "John pensou 'oops.' Mas se você perguntar: o que é pensamento? O que significa para João ter esse pensamento? Afinal, na cabeça dele não existem aspas de abertura, "oops", aspas finais, em geral não existe tal coisa. Alguma atividade neural está acontecendo em sua cabeça. " Grandes imagens da atividade neural, se você for um matemático, podem ser capturadas no espaço vetorial,onde a atividade de cada neurônio corresponderá a um número, e cada número corresponderá à coordenada de um vetor muito grande. Para Hinton, o pensamento é uma dança de vetores.

Agora está claro por que o Vector Institute foi chamado assim?

Hinton cria uma espécie de campo de distorção da realidade, um sentimento de confiança e entusiasmo é transmitido a você, instilando a crença de que nada é impossível para os vetores. Afinal, eles já criaram carros autônomos, computadores para detecção de câncer, tradutores de linguagem falada instantaneamente.

É só quando você sai da sala que se lembra de que esses sistemas de aprendizado profundo ainda são muito burros, apesar de seu poder demonstrativo de pensamento. Um computador que vê uma pilha de rosquinhas sobre a mesa e a rotula automaticamente como “uma pilha de rosquinhas sobre a mesa” parece entender o mundo; mas quando o mesmo programa vê uma menina escovando os dentes e diz que ela é "um menino com um taco de beisebol", você percebe como esse entendimento é evasivo, se é que existe algum.

As redes neurais são apenas reconhecedores de padrões vagos e estúpidos, e como esses reconhecedores de padrões podem ser úteis - porque procuram integrá-los a qualquer software - eles são, na melhor das hipóteses, uma espécie limitada de inteligência que é facilmente enganada. Uma rede neural profunda que reconhece imagens pode ser completamente confusa se você alterar um pixel ou adicionar ruído visual que é invisível para os humanos. Quase sempre que encontramos novas maneiras de usar o aprendizado profundo, frequentemente nos deparamos com suas limitações. Os carros que dirigem sozinhos não podem circular em condições nunca antes vistas. As máquinas não podem analisar sentenças que requerem bom senso e uma compreensão de como o mundo funciona.

Image
Image

O Deep Learning imita o que está acontecendo no cérebro humano de uma forma, mas superficial - o que talvez explique por que sua inteligência às vezes é tão superficial. Backprop não foi descoberto durante a imersão do cérebro, tentando decifrar o próprio pensamento; surgiu de modelos de aprendizagem animal por tentativa e erro em experimentos antiquados. E a maioria dos passos importantes que foram dados desde seu início não incluiu nada de novo sobre a neurociência; eram melhorias técnicas merecidas por anos de trabalho de matemáticos e engenheiros. O que sabemos sobre inteligência não é nada comparado ao que ainda não sabemos sobre ela.

David Duvenaud, professor assistente no mesmo departamento de Hinton na Universidade de Toronto, diz que o aprendizado profundo é semelhante à engenharia antes da introdução da física. “Alguém escreve uma obra e diz: 'Fiz esta ponte e vale a pena!' Outro escreve: "Fiz esta ponte e ela desabou, mas adicionei suportes e ela se mantém". E todo mundo enlouquece pelos apoios. Alguém adiciona um arco - e todo mundo é assim: arcos são legais! Com a física, você pode realmente descobrir o que funcionará e por quê. Só recentemente começamos a nos mover em direção a pelo menos alguma compreensão da inteligência artificial."

E o próprio Hinton diz: “A maioria das conferências fala sobre fazer pequenas mudanças em vez de pensar muito e fazer perguntas:“Por que o que estamos fazendo agora não está funcionando? Qual é a razão para isto? Vamos nos concentrar nisso."

É difícil ter uma perspectiva externa quando tudo o que você vê é avanço após avanço. Mas os últimos avanços em IA têm sido menos científicos e mais engenharia. Embora tenhamos um melhor entendimento de quais mudanças irão melhorar os sistemas de aprendizado profundo, ainda temos uma vaga ideia de como esses sistemas funcionam e se eles podem se transformar em algo tão poderoso quanto a mente humana.

É importante entender se fomos capazes de extrair tudo o que pudermos do backprop. Se for assim, teremos um platô no desenvolvimento da inteligência artificial.

Paciência

Se você quiser ver o próximo avanço, algo como uma estrutura para máquinas com inteligência muito mais flexível, você deveria, em teoria, recorrer a pesquisas semelhantes às pesquisas de backprop dos anos 80: quando as pessoas inteligentes desistiam porque suas ideias ainda não funcionavam. …

Há alguns meses, visitei o Center for Minds, Brains and Machines, uma instituição polivalente localizada no MIT, para ver meu amigo Eyal Dechter defender sua dissertação em ciências cognitivas. Antes do início da apresentação, sua esposa Amy, seu cachorro Ruby e sua filha Suzanne o apoiaram e lhe desejaram boa sorte.

Eyal iniciou seu discurso com uma pergunta fascinante: como é que Suzanne, de apenas dois anos, aprendeu a falar, brincar, seguir histórias? O que há no cérebro humano que permite que ele estude tão bem? Algum dia um computador aprenderá a aprender tão rápida e facilmente?

Compreendemos novos fenômenos em termos de coisas que já entendemos. Dividimos o domínio em pedaços e o examinamos peça por peça. Eyal é um matemático e programador, ele pensa nas tarefas - como fazer um suflê - como programas de computador complexos. Mas você não aprende a fazer um suflê memorizando centenas de instruções de programas de minuto como "gire o cotovelo 30 graus, olhe para a mesa, depois estenda o dedo, então …". Se você tivesse que fazer isso em cada novo caso, o aprendizado se tornaria insuportável e você pararia de se desenvolver. Em vez disso, vemos etapas de alto nível como "bater as claras" no programa, que consistem em sub-rotinas como "quebrar os ovos" e "separar as claras das gemas".

Os computadores não fazem isso e, portanto, parecem estúpidos. Para que o aprendizado profundo reconheça um cachorro-quente, é necessário alimentá-lo com 40 milhões de imagens de cachorro-quente. O que Suzanne reconheceu no cachorro-quente, basta mostrar a ela o cachorro-quente. E muito antes disso, ela terá uma compreensão da linguagem, que vai muito mais fundo do que o reconhecimento do aparecimento de palavras separadas juntas. Ao contrário de um computador, sua cabeça tem uma ideia de como o mundo funciona. “Surpreende-me que as pessoas tenham medo de que os computadores roubem seus empregos”, diz Eyal. “Os computadores não serão capazes de substituir os advogados porque os advogados estão fazendo algo difícil. Mas porque os advogados ouvem e falam com as pessoas. Nesse sentido, estamos muito longe de tudo isso."

A verdadeira inteligência não será confundida se você alterar ligeiramente os requisitos para resolver o problema. E a principal tese de Eyal foi demonstrar exatamente isso, em princípio, como fazer um computador funcionar dessa maneira: aplicar rapidamente tudo o que ele já sabe para resolver novos problemas, captar rapidamente na hora, tornar-se um especialista em um campo completamente novo.

Essencialmente, isso é o que ele chama de algoritmo de compressão de exploração. Ele dá ao computador a função de um programador, construindo uma biblioteca de componentes modulares reutilizáveis para que programas mais complexos possam ser criados. Sem saber nada sobre o novo domínio, o computador tenta estruturar o conhecimento sobre ele, simplesmente estudando-o, consolidando o que descobriu e estudando-o ainda mais, como uma criança.

Seu orientador, Joshua Tenenbaum, é um dos pesquisadores de IA mais citados. O nome de Tenenbaum apareceu em metade das conversas que tive com outros cientistas. Algumas das pessoas-chave da DeepMind - a equipe de desenvolvimento da AlphaGo que venceu o campeão do World Go em 2016 - trabalharam com ele. Ele está envolvido em uma startup que está tentando dar aos carros autônomos uma compreensão intuitiva dos fundamentos da física e das intenções de outros motoristas para que possam antecipar melhor o que está acontecendo em situações que não encontraram antes.

A tese de Eyal ainda não foi aplicada na prática, nem mesmo foi introduzida nos programas. “Os problemas em que Eyal está trabalhando são muito, muito difíceis”, diz Tenenbaum. "Leva muitas gerações para passar."

Quando nos sentamos para uma xícara de café, Tenenbaum disse que estava pesquisando a história do backprop em busca de inspiração. Por décadas, o backprop foi uma forma de matemática legal, a maioria incapaz de nada. Conforme os computadores ficaram mais rápidos e a tecnologia mais difícil, as coisas mudaram. Ele espera que algo semelhante aconteça com seu próprio trabalho e com o de seus alunos, mas "pode levar mais algumas décadas".

Para Hinton, ele está convencido de que superar as limitações da IA é criar uma "ponte entre a ciência da computação e a biologia". O Backprop, desse ponto de vista, foi um triunfo da computação de inspiração biológica; a ideia não veio originalmente da engenharia, mas da psicologia. Portanto, agora Hinton está tentando repetir esse truque.

Hoje, as redes neurais são compostas de grandes camadas planas, mas no neocórtex humano os neurônios reais se alinham não apenas horizontalmente, mas também verticalmente, em colunas. Hinton adivinha para que servem essas colunas - na visão, por exemplo, elas permitem que você reconheça objetos mesmo quando você muda seu ponto de vista. Então ele cria uma versão artificial - e as chama de "cápsulas" - para testar essa teoria. Até agora, não saiu nada: as cápsulas não melhoraram muito o desempenho de suas redes. Mas 30 anos atrás era o mesmo com backprop.

“Deve funcionar”, diz ele sobre a teoria da cápsula, rindo de sua própria bravata. "E o que ainda não funciona é apenas uma irritação temporária."

Com base em materiais do Medium.com

Ilya Khel

Recomendado: