Ataques Adversários: Por Que Uma Rede Neural é Fácil De Enganar? - Visão Alternativa

Índice:

Ataques Adversários: Por Que Uma Rede Neural é Fácil De Enganar? - Visão Alternativa
Ataques Adversários: Por Que Uma Rede Neural é Fácil De Enganar? - Visão Alternativa

Vídeo: Ataques Adversários: Por Que Uma Rede Neural é Fácil De Enganar? - Visão Alternativa

Vídeo: Ataques Adversários: Por Que Uma Rede Neural é Fácil De Enganar? - Visão Alternativa
Vídeo: Redes Neurais: Por que são tão poderosas? | #AluraMais 2024, Pode
Anonim

Nos últimos anos, à medida que os sistemas de aprendizado profundo se tornaram mais prevalentes, os cientistas demonstraram como os padrões adversários podem afetar qualquer coisa, desde um simples classificador de imagens a sistemas de diagnóstico de câncer - e até mesmo criar uma situação de risco de vida. Apesar de todo o perigo, os exemplos adversários são mal compreendidos. E os cientistas estavam preocupados: esse problema pode ser resolvido?

O que é um ataque adversário? Essa é uma maneira de enganar uma rede neural para produzir um resultado incorreto. Eles são usados principalmente em pesquisas científicas para testar a robustez dos modelos em relação a dados não padronizados. Mas na vida real, por exemplo, você pode mudar alguns pixels na imagem de um panda para que a rede neural tenha certeza de que há um gibão na imagem. Embora os cientistas apenas adicionem "ruído" à imagem.

Ataque adversário: como enganar uma rede neural?

Um novo trabalho do Instituto de Tecnologia de Massachusetts aponta para uma possível maneira de superar esse problema. Ao resolvê-lo, poderíamos criar modelos de aprendizado profundo muito mais confiáveis que seriam muito mais difíceis de manipular de maneiras maliciosas. Mas vamos primeiro examinar os fundamentos dos padrões adversários.

Como você sabe, o poder do aprendizado profundo vem de sua capacidade superior de reconhecer padrões (padrões, padrões, diagramas, padrões) em dados. Alimente a rede neural com dezenas de milhares de fotos de animais marcados e ele aprende quais padrões estão associados a um panda e quais estão associados a um macaco. Ela pode então usar esses padrões para reconhecer novas imagens de animais que ela nunca viu antes.

Mas os modelos de aprendizagem profunda também são muito frágeis. Como o sistema de reconhecimento de imagem depende apenas de padrões de pixel e não de uma compreensão mais conceitual do que vê, é fácil enganá-lo para ver algo completamente diferente - simplesmente quebrando os padrões de uma certa maneira. Exemplo clássico: adicione um pouco de ruído a uma imagem de panda e o sistema a classifica como um gibão com quase 100 por cento de certeza. Esse barulho será o ataque adversário.

Image
Image

Vídeo promocional:

Há vários anos, os cientistas vêm observando esse fenômeno, especialmente em sistemas de visão computacional, sem realmente saber como se livrar dessas vulnerabilidades. Na verdade, o trabalho apresentado na semana passada em uma grande conferência sobre pesquisa de inteligência artificial - ICLR - questiona a inevitabilidade de ataques adversários. Pode parecer que não importa quantas imagens de panda você alimente para o classificador de imagens, sempre haverá algum tipo de indignação com a qual você quebra o sistema.

Mas um novo trabalho do MIT demonstra que estávamos pensando erroneamente sobre os ataques adversários. Em vez de descobrir maneiras de coletar mais dados de qualidade que alimentam o sistema, precisamos repensar fundamentalmente nossa abordagem para treiná-lo.

O trabalho demonstra isso ao revelar uma propriedade bastante interessante dos exemplos adversários que nos ajuda a entender por que eles são eficazes. Qual é o truque: ruído aparentemente aleatório ou adesivos que confundem a rede neural; na verdade, usam padrões muito pontuais e sutis que o sistema de visualização aprendeu a associar fortemente a objetos específicos. Em outras palavras, a máquina não para quando vemos um gibão onde vemos um panda. Na verdade, ela vê um arranjo regular de pixels, invisível para os humanos, que apareceu com muito mais frequência em fotos com gibões do que em fotos com pandas durante o treinamento.

Os cientistas demonstraram isso por meio de experimentos: eles criaram um conjunto de dados de imagens de cães, que foram todos alterados de tal maneira que o classificador de imagens padrão os identificou erroneamente como gatos. Eles então marcaram essas imagens com “gatos” e os usaram para treinar uma nova rede neural do zero. Após o treinamento, eles mostraram à rede neural imagens reais de gatos, e ela os identificou corretamente como gatos.

Os pesquisadores levantaram a hipótese de que existem dois tipos de correlações em cada conjunto de dados: padrões que realmente se correlacionam com o significado dos dados, como bigodes em imagens de gatos ou coloração de pelos em imagens de panda, e padrões que existem em dados de treinamento, mas não são propagados. para outros contextos. Essas últimas correlações "enganosas", vamos chamá-las assim, são usadas em ataques adversários. Um sistema de reconhecimento, treinado para reconhecer padrões "enganosos", os encontra e pensa que está vendo um macaco.

Isso nos diz que, se quisermos eliminar o risco de um ataque adversário, precisamos mudar a maneira como treinamos nossos modelos. No momento, estamos permitindo que a rede neural selecione as correlações que deseja usar para identificar objetos na imagem. Como resultado, não temos controle sobre as correlações encontradas, sejam elas reais ou enganosas. Se, em vez disso, treinarmos nossos modelos para lembrar apenas padrões reais - que estão vinculados a pixels significativos - em teoria, seria possível produzir sistemas de aprendizado profundo que não poderiam ser confundidos.

Quando os cientistas testaram essa ideia, usando apenas correlações reais para treinar seu modelo, eles na verdade reduziram sua vulnerabilidade: ela foi manipulada apenas 50% do tempo, enquanto um modelo treinado em correlações reais e falsas foi manipulado 95% das vezes.

Em suma, você pode se defender contra ataques adversários. Mas precisamos de mais pesquisas para eliminá-los completamente.

Ilya Khel

Recomendado: