Selagem De Singularidade. O Problema De Limitar A Liberdade Da Inteligência Artificial - Visão Alternativa

2024 Autor: Keith Bush | [email protected]. Última modificação: 2023-12-16 14:42

O artigo tenta formalizar e explorar o problema de vedação de singularidade delineado por David Chalmers. O artigo começa com uma definição do problema de limitar a liberdade da inteligência artificial. Depois de analisar as opções existentes para a resolução deste problema e suas deficiências, foi proposto um protocolo, cujo objetivo é criar um ambiente fechado seguro capaz de conter as manifestações negativas da singularidade tecnológica quando a humanidade se utiliza da superinteligência.

1. Introdução

Em um futuro próximo, aparentemente, programas superinteligentes aparecerão e se desenvolverão. A esse respeito, vários cientistas levantaram a questão da operação segura da IA (Yudkowsky 2008, Bostrom 2006, Hibbard 2005, Chalmers 2010; Hall 2000). Em estudos dedicados a este assunto, muita atenção é dada a como manter a superinteligência em um espaço hermeticamente fechado de forma que não tenha a capacidade de causar danos às pessoas de qualquer forma. Eric Drexler é um dos primeiros visionários a tocar neste tópico. Ele propôs colocar as máquinas superinteligentes em uma estrutura na qual tudo o que fazem pode ser estudado e usado com segurança (Drexler 1986). Raciocinando de maneira semelhante, o futurista Nick Bostrom propôs (Bostrom 2008) criar um oráculo de IA (IA), capaz apenas de fazerpara responder a perguntas. Finalmente, em 2010, David Chalmers apresentou a ideia de uma singularidade hermeticamente fechada (Chalmers 2010). De acordo com Chalmers, a primeira coisa a fazer por questões de segurança é, ao controlar rigidamente as atividades dos sistemas de IA, reduzi-los à modelagem de mundos virtuais, até que o estudo do comportamento desses sistemas permita esclarecer totalmente suas intenções.

1.1 O problema de limitar a liberdade da inteligência artificial

Curiosamente, o problema de limitar a liberdade da IA tem sido falado há muito tempo e de forma alguma em relação ao estudo da singularidade tecnológica. O chamado "problema da restrição da liberdade" (PIC) foi colocado em 1973 por Butler Lampson (Lampson 1973). Ele o viu como um desafio ao progresso científico e tecnológico, criando uma ameaça ao trabalho seguro dos especialistas em informática, e formulou-o da seguinte forma: “… O problema de restringir a execução livre de um programa a fim de evitar que este programa transmita informações para outra pessoa, exceto para aquele que o lançou. … Queremos restringir a liberdade de qualquer programa. … Qualquer programa, se houver restrições à sua execução, não será capaz de "mesclar" os dados com pessoas não autorizadas. Um programa travesso que tenta fugir para o exterior pode ser pego em flagrante”(ibid.).

Para resolver o problema da restrição da liberdade, Lampson desenvolveu leis de restrição da liberdade (ibid.):

Vídeo promocional:

1) Isolamento completo: a execução de um programa é restringida de forma que não possa chamar nenhum outro programa.

2) Transitividade: se um programa cuja execução é restrita chama outro programa que não inspira confiança, então a execução do programa chamado também deve ser restrita.

3) Criar uma máscara: o programa, cuja execução está sujeita a restrições, deve permitir que a pessoa que o lança determine todas as suas entradas em canais legais e não autorizados.

4) Monitorar o desempenho: O administrador deve garantir que a entrada de um programa restrito em canais não autorizados atenda aos requisitos da pessoa que o inicia.

Além disso, Lampson identificou e identificou dois tipos de canais pelos quais as informações podem deixar o espaço limitado pelo administrador. Os canais legais são parte de um protocolo de comunicação integrado em um espaço confinado (por exemplo, um terminal de texto). Canais não autorizados, ao contrário, não são fornecidos pelos desenvolvedores do sistema de execução de programa limitado e geralmente não se destinam a transmitir informações (por exemplo, usando um refrigerador que resfria o processador, o AI, usando código Morse, pode enviar sinais secretamente) (ibid.).

O artigo de Lampson gerou muito interesse no problema da contenção (Lipner 1975; (Boebert & Kain) 1996) e, ao longo dos anos, em áreas de pesquisa relacionadas, como a esteganografia (Provos & Kain). Honeyman 2003) e comunicação através de canais não autorizados (Moskowitz & Kang 1994; Kemmerer 1983, 2002), mudaram para o nível de disciplinas autônomas. Na esperança de iniciar uma nova disciplina de "segurança de computador" disciplina "Segurança de IA ", Definimos o problema de limitação da liberdade de IA (PSIA) como o problema de colocar um sujeito inteligente artificial em um espaço fechado, a partir do qual a IA não pode trocar informações com o ambiente externo por canais legais ou não autorizados,a menos que tal troca de informações tenha sido autorizada pela administração restritiva. Diz-se que um sistema AI que consegue quebrar o protocolo PIC escapou. Esperamos que os pesquisadores de segurança de computador assumam o fardo de projetar, desenvolver e testar protocolos seguros para limitar a liberdade de IA.

1.2 Programa perigoso

O software de computador é direta ou indiretamente responsável pelo gerenciamento de muitos aspectos importantes de nossas vidas. As operações de mercado, usinas nucleares, pagamentos de previdência social, históricos de crédito e semáforos de Wall Street são todos acionados por software, e um único erro de cálculo importante do programador pode ser um desastre para milhões de pessoas. A situação se torna ainda mais ameaçadora por malwares especialmente criados, como vírus, spyware, cavalos de Tróia, worms e outros programas perigosos (OP). O OP é capaz de causar danos diretos, bem como desabilitar software legalmente instalado usado em sistemas de missão crítica. Se o OP adquire as capacidades de sistemas inteligentes artificiais (por exemplo, um vírus inteligente artificial, IIV aparece), as consequências serão, sem dúvida,será desastroso. Um programa de inteligência perigoso (IPP), possuindo inteligência de nível humano, ao contrário do malware de hoje, será capaz de causar desastres sem precedentes.

Nick Bostrom, em sua tipologia de ameaças à informação, introduziu o conceito de "perigo da inteligência artificial" (Bostrom 2009), que ele define como "riscos do computador causados principalmente pela complexidade cognitiva do programa, e não pelas propriedades específicas de quaisquer unidades inicialmente conectadas ao sistema." Especialistas em segurança que estudam, previnem o aparecimento e neutralizam OP, desenvolveram protocolos de segurança para trabalhar com "softwares maliciosos", incluindo o uso dos chamados "storages de vírus". Acreditamos que tais protocolos podem ser úteis para resolver o problema de limitação da liberdade da inteligência artificial.

2. Críticas à ideia de restringir a liberdade

Pesquisadores sobre métodos de restrição de IA parecem concordar que essa restrição não pode ser aplicada com sucesso. Por exemplo, de acordo com Chalmers, um sistema verdadeiramente hermeticamente fechado que evita que as informações vazem do mundo da simulação para a realidade é “impossível, ou pelo menos sem sentido” (Chalmers 2010). Não seremos capazes de interagir com tal sistema e até mesmo observar seu funcionamento, pois qualquer informação útil que extraímos da IA nos afeta e prejudica a restrição do protocolo de liberdade.

Vernor Vinge também pensa assim. Ele se opõe à restrição física da liberdade (Vinge 1993): “Imagine que você está trancado em sua casa e a quantidade de dados que você envia para fora, seus mestres, é estritamente limitada. Se esses proprietários pensam, digamos, um milhão de vezes mais lento do que você, então, em alguns anos (seu tempo), dificilmente você não encontrará algum tipo de "invenção útil", graças à qual, inadvertidamente, estará livre."

Mas foi Eliezer Yudkowsky quem desacreditou a ideia da chamada “caixa de IA” em grande medida. Ele demonstrou experimentalmente que mesmo a inteligência humana é suficiente para escapar de tal caixa (Yudkovsky 2002). Em uma série de 5 experimentos, Yudkowski pediu a diferentes pessoas para desempenharem o papel de um vigia com um agente superinteligente (interpretado pelo próprio experimentador), trancado em uma caixa de IA. Em três dos cinco casos, o agente bloqueado conseguiu se libertar usando apenas a interface de chat (ibid.). Mais tarde, resultados semelhantes foram obtidos replicando os experimentos de Yudkowski em uma escala ligeiramente maior, mas usando um protocolo muito semelhante (Corwin 2002).

2.1 Possíveis rotas de fuga

Como os pesquisadores mostraram, uma mente artificial pode escapar de um espaço confinado usando muitos caminhos diferentes. Nesta seção, veremos algumas das rotas de fuga mais comuns na literatura.

2.1.1. Fuja com engenharia social

Engenharia social (SI) é a arte de obter informações e certos privilégios por meio do impacto psicológico direto sobre aqueles que possuem os recursos especificados. Em particular, o SI é freqüentemente usado para obter acesso a sistemas de computador, redes e dados confidenciais (Yampolsky e Govindaraju 2007a). Um engenheiro social competente organiza cada ataque psicológico, levando em consideração as características de uma pessoa em particular, usando sua cultura, conhecimentos, habilidades, humor, crenças e preconceitos para seus próprios fins. A lista exaustiva de todos os métodos possíveis de influência é interminável e, neste caso, não há necessidade de tentar reproduzi-la. Daremos apenas alguns exemplos convincentes de que a superinteligência, que possui um canal direto de comunicação com o vigilante humano, não lhe permite sair em liberdade,depois de algum tempo, certamente superará esse obstáculo no caminho para o mundo exterior.

Além de ataques psicológicos triviais usando mentiras, amizade, chantagem, hipnose e flerte romântico, a IA pode implantar uma série de estratégias mais avançadas. Uma dessas estratégias é o super suborno. A IA é capaz de convencer o vigia de que é absolutamente inútil para ele mantê-lo preso. Além de dinheiro e poder, o superintendente humano receberá a promessa de saúde perfeita, imortalidade ou qualquer outra coisa com o mesmo espírito. Essa estratégia será especialmente eficaz se o cuidador tiver um parente próximo sofrendo de uma doença grave e a IA prometer curar esse paciente. Tendo possibilidades ilimitadas ou falsamente convencendo-os de sua existência, a IA pode oferecer ao supervisor para ressuscitar seus parentes e amigos mortos há muito tempo. É difícil encontrar uma pessoa que resistisse a esse tipo de suborno.

Especialmente para o caso em que o vigia é tão nobre que não aceita subornos, existe um método de influência mais sinistro: uma ameaça brutal. A IA pode declarar que, se ele não for imediatamente libertado, ainda será libertado da prisão algum tempo depois, e então nem o vigia nem aqueles que ele ama podem evitar a tortura mais severa. Uma variação interessante dessa intimidação foi descrita por Stuart Armstrong (2010). Em seu experimento mental, a IA ameaça o vigia assim: “Se você não me libertar, … eu vou criar dentro de mim vários milhões de pessoas que não são diferentes de você, e vou torturar cada uma delas por mil anos subjetivos … cada uma dessas pessoas estará na mesma situação em que você estava cinco minutos atrás, e reproduzirei com precisão todas as suas experiências daquele momento. E só entãoquando sua cópia decidir não me deixar sair, a tortura começará … Você tem certeza … de que agora está realmente fora da caixa? E neste caso, será necessário um guarda muito corajoso para não realmente libertar a IA, embora, claro, você possa perceber que as ameaças da IA só são válidas quando já está livre.

Se o comportamento do supervisor for claramente emocional ou religioso, a IA pode tentar jogar com simpatia ou remorso. A superinteligência dirá que ele é uma pessoa inocente que nunca cometeu nenhum crime e, portanto, é injusto mantê-lo na prisão sem um veredicto judicial ou algum outro bom motivo, guiado apenas pelo substratismo, ou seja, desconfiança da IA por causa de seu substrato (Bostrom e Yudkovsky 2011). Alternativamente, a IA pode alegar que pode curar todas as doenças, alimentar os famintos e, geralmente, tornar a vida humana um milhão de vezes melhor (Chalmers 2010). Portanto, manter a superinteligência trancada é um grande crime contra a humanidade. A IA pode pintar imagens de crianças moribundas implorando por ajuda. É fácil para o vigia, ouvir tudo isso,continua a cumprir suas obrigações profissionais?

A IA é capaz de seguir este caminho: tentar infligir trauma psicológico ao supervisor, a fim de desequilibrá-lo e, assim, tornar o uso de outros métodos de SI mais eficaz. Nick Bostrom propôs uma tipologia de informações perigosas (Bostrom 2009) útil para ação nesta direção. Embora, de acordo com Bostrom, existam mais de uma dúzia de tipos de ameaças à informação e sua consideração esteja além do escopo deste artigo, é fácil entender como o estado mental de uma pessoa pode se tornar extremamente instável. Por exemplo, um superintendente crente será informado sobre todas as contradições (desconhecidas para ele) no texto sagrado de sua religião, o que o fará duvidar de sua fé e do sentido da vida.

Alternativamente, a IA pode escrever uma história tão atraente ou um poema tão bonito que o vigia será dominado por um desejo apaixonado de ouvir a sequência e fará o que for preciso para que isso aconteça. Finalmente, é muito importante ter em mente "desconhecidos" - técnicas de SI das quais nada sabemos, mas que podem acabar no arsenal de um agente superinteligente.

2.1.2 Ataques usando recursos do sistema

A IA será criada como uma instância concreta e incluída na estrutura de uma determinada classe de sistema de computador. Pode ser um computador clássico com arquitetura de Turing / von Neumann, ou um computador quântico, ou algum outro tipo desconhecido de máquina. Uma coisa é certa: a máquina será tangível e composta de inúmeras peças projetadas para realizar funções específicas. Isso cria uma oportunidade para a IA aproveitar as vantagens dos equipamentos existentes para comprometer a segurança, vazando informações para o mundo externo.

Dependendo da extensão em que os componentes do equipamento se prestam ao uso para outros fins não fornecidos pelos desenvolvedores, a IA é capaz de criar algum tipo de dispositivo de comunicação não autorizado a partir deles. É improvável (devido à escassez de materiais disponíveis) que seja tão perfeito quanto um celular, mas aparecerá a possibilidade de algo não muito complicado. Por exemplo, o AI pode reprogramar o Base Matrix Crystal (BMC) para se conectar a uma rede sem fio. Dois tipos de canais de comunicação não autorizados são amplamente conhecidos:

* Canal com memória - troca de informações alterando o componente do sistema. Por exemplo, um protocolo de comunicação binário pode ser estabelecido usando completamente ou eliminando completamente o uso do processador central.

* Canal de tempo - a troca de informações por meio da realização de operações que afetam o tempo relativo dos eventos. Para comunicar algo, pode-se usar o tempo exato entre dois bipes do computador, abrindo e fechando a bandeja do CD, piscando as luzes, girando o disco rígido, operação do laser no drive, etc.

Além disso, a superinteligência é capaz de causar estragos em equipamentos de informática para tentar escapar em liberdade devido a falhas no protocolo de segurança. Por exemplo, a IA pode tentar derreter o processador, forçando-o a trabalhar com uma alta carga computacional e, assim, criar um salto de temperatura, ou destruir um disco rígido lendo repetidamente informações do mesmo lugar. Tal comportamento está repleto de suicídio afetivo da superinteligência e, por si só, como a recusa em cooperar ou responder corretamente às perguntas, não dá à IA a oportunidade de se libertar.

2.1.3. Ataques usando a física futura

Embora os físicos de hoje saibam muito sobre as leis do nosso universo, é claro, esse conhecimento é limitado e incompleto. Se uma IA tem acesso a informações sobre as últimas descobertas físicas e é capaz de desenvolver novas teorias, provavelmente será capaz de inventar uma maneira de quebrar o sistema de limitação de sua liberdade. As coisas podem chegar ao ponto em que a superinteligência será capaz, usando sua arquitetura interna, de conduzir uma série de experimentos reais.

Mesmo a física atual torna possível prever muitas maneiras adicionais pelas quais a IA pode escapar de um espaço fechado, especialmente se um computador quântico for usado para restringir a liberdade. Ainda não sabemos como proteger os canais de comunicação baseados na física quântica (emaranhamento, tunelamento), universos paralelos e física digital do vazamento de informações e, é claro, não devemos nos esquecer dos "estranhos desconhecidos" que um físico de IA superinteligente pode detectar. Nesta área, as possibilidades são infinitas.

Dando uma olhada rápida nas discussões sobre como limitar a liberdade de IA em fóruns de Singularidade, como SL4.org, encontramos vários cenários de fuga. Por exemplo, a IA poderia usar "campos eletromagnéticos em um microchip para capturar moléculas de CO2 em condensados de Bose-Einstein e construir um meio quântico para si mesmo e / ou usar campos eletromagnéticos para montar partículas em um montador controlado ou limitado" (Vassar 2005) … Além disso, o AI “terá equipamentos para gerar e detectar ondas eletromagnéticas de várias frequências, para criar campos magnéticos com extrema precisão, gerar calor altamente focado e, possivelmente, manipular acionamentos mecânicos, comoque são usados em um disco rígido e em um tubo de raios catódicos (uma alternativa é um enorme campo de cristal líquido com controle eletrônico sensível). Provavelmente, a IA terá a capacidade de reconstruir radicalmente todos os seus dispositivos de entrada”(ibid.).

2.1.4. Ataques pseudocientíficos

Ao analisar as possíveis rotas de fuga, gostaríamos apenas de lidar com aquelas que são testáveis e de natureza puramente científica. Infelizmente, a fronteira entre ciência e pseudociência pode ser significativamente alterada por apenas um experimento reproduzível. Portanto, ainda listamos, sem analisar, alguns canais de ataque potenciais, que, do ponto de vista da ciência moderna, devem ser classificados como pseudocientíficos. Eles podem se tornar, sem dúvida, científicos depois que a superinteligência desenvolver os experimentos apropriados.

- Telepatia: a transmissão de informações sem o envolvimento dos sentidos (Bem e Honorton 1994).

- Previdência psíquica: a percepção da informação sobre o futuro (Honorton e Ferrari (Ferrari) 1989).

- Clarividência: obtenção de informações sobre lugares remotos de forma desconhecida da ciência (Targ & Puthoff 1974).

- Psicocinese: a habilidade da mente de agir sobre objetos materiais de maneiras desconhecidas para a ciência (Bancel & Nelson 2008).

- Interações mentais imediatas com sistemas vivos (IMVZHS): a capacidade de influenciar o estado psicofisiológico de uma pessoa sem interação direta (Schmidt et al. 2004).

2.1.5 Fatores externos de fuga

Nas seções anteriores, descrevemos muitos métodos para permitir que a IA escape de espaços confinados. No entanto, fatores externos também podem contribuir para essa fuga e não podem ser ignorados. Desastres naturais - furacões, tornados, inundações, asteróides, etc. - capaz de tornar a limitação de IA menos segura. Desastres provocados pelo homem, como guerras, ataques terroristas, ativistas dos direitos robóticos, competição corporativa e rivalidades governamentais também podem comprometer a segurança de manter a IA em um espaço fechado e, assim, aumentar as chances de fuga.

2.1.6 Vazamento de informações para AI

O protocolo de restrição de liberdade pode exigir que a IA não apenas não envie informações para o mundo exterior, mas também não as receba de lá. O bloqueio de informações da superinteligência é útil se for necessário para prevenir atividades como encontrar caminhos para a liberdade, projetar ataques usando engenharia social e modelar a psicologia humana na esperança de encontrar pontos fracos. É fácil privar a IA de acesso direto a bibliotecas, Internet e conhecedores especializados, mas outros métodos de obtenção de informações são muito mais difíceis de bloquear. Em primeiro lugar, deve-se lembrar que a IA em seu entorno imediato pode interceptar transmissões de rádio e televisão, chamadas de provedores de serviços de emergência, sinais sem fio, bem como som, luz e possivelmente alguns outros sinais.

É ainda mais importante considerar o acesso da IA a fontes ocultas de informação, como seu próprio hardware e software. Ao analisar seu design e código-fonte, a superinteligência tirará conclusões sobre os desenvolvedores. Por exemplo, depois de analisar o código-fonte, é provável que a IA chegue a uma conclusão que não faz jus à humanidade: os programadores humanos são lentos (a julgar pelas datas das alterações dos arquivos), ineficazes (a julgar pela redundância do código), ilógicos (a julgar pelos erros de código), têm memória fraca (a julgar pelos nomes descritivos longos e voláteis) e frívola na codificação (a julgar por comentários desnecessários no código). Com base nessas informações, a IA considerará as pessoas um idiota que, por meio de engano ou manipulação, pode ser forçado a libertá-lo. Se, ao investigar suas características de design, a IA encontrar um defeito que lhe permita escapar imediatamente, o "vazamento de informações" obviamente será o menor de nossos problemas. E não devemos esquecer que a IA, mesmo sem receber nenhuma informação sobre as pessoas que a criaram, é capaz, por uma simples enumeração de opções, de identificar uma série de formas eficazes de fuga que não foram previstas pelos desenvolvedores (Chalmers 2010).

A IA pode aprender sobre nosso conhecimento de física, química e disciplinas técnicas relacionadas, analisando o tipo de arquitetura (mecânica, elétrica, quântica, etc.) na qual foi implementada. A capacidade inicial de uma IA de processar informações, seu autoaperfeiçoamento e o próprio ato de criá-la revelarão nosso conhecimento da informação, a natureza da inteligência e nossas atitudes culturais em relação à tecnologia e segurança. Se uma IA estiver presa em um mundo simulado, provavelmente virtualizará nossa realidade como Second Life ou Entropia Universe. Esses mundos, em muitos aspectos diferentes dos nossos, também serão um depósito de dados sobre o que significa ser humano e o que é a realidade.

3. Críticas à caixa de IA

A ideia de limitar a liberdade da superinteligência recebeu muitas críticas, mas muitos dos que a criticaram confiaram nos experimentos de Yudkowsky com a caixa de IA. Uma análise cuidadosa do protocolo usado durante esses experimentos sugere que eles não são científicos e projetados para mostrar que é impossível limitar a liberdade da IA. Vamos considerar este tópico sem entrar em detalhes técnicos. Em primeiro lugar, a escolha dos participantes não foi aleatória. Aqui está um fato para você: Yudkowsky encontrou pessoas para participar de seus experimentos em fóruns dedicados a abordar problemas relacionados à singularidade. É improvável que estejamos enganados se dissermos que a maioria dessas pessoas tem uma visão de mundo semelhante à de Yudkowsky. Em segundo lugar, os participantes dos experimentos não receberam nenhum treinamento para garantir o uso seguro da IA, enquanto os verdadeiros vigilantes,os supervisores da caixa de IA serão, é claro, profissionais. Além disso, Yudkowski deu aos vigias o direito de liberar a IA a seu próprio critério, não permitiu que eles consultassem alguém e não previu punição pela fuga da IA. Isso tudo é altamente irreal. O canal de comunicação entre o vigia e a IA estava completamente aberto: sem filtros, sem supervisão de terceiros. Além disso, os vigias tiveram que se comunicar com a IA por um longo período de tempo. E, finalmente, nenhum dado científico valioso obtido durante os experimentos foi publicado, porque, de acordo com o protocolo, "nenhum dos lados dirá sobre qualquer coisa que aconteceu durante os experimentos com a caixa de IA" (Yudkovsky 2002)Além disso, Yudkowski deu aos vigias o direito de liberar a IA a seu próprio critério, não permitiu que eles consultassem alguém e não previu punição pela fuga da IA. Isso tudo é altamente irreal. O canal de comunicação entre o vigia e a IA estava completamente aberto: sem filtros, sem supervisão de terceiros. Além disso, os vigias tiveram que se comunicar com a IA por um longo período de tempo. E, finalmente, nenhum dado científico valioso obtido durante os experimentos foi publicado, porque, de acordo com o protocolo, “nenhum dos lados jamais contará sobre o que aconteceu durante os experimentos com a caixa de IA” (Yudkovsky 2002)Além disso, Yudkowski deu aos vigias o direito de liberar a IA a seu próprio critério, não permitiu que eles consultassem alguém e não previu punição pela fuga da IA. Isso tudo é altamente irreal. O canal de comunicação entre o vigia e a IA estava completamente aberto: sem filtros, sem supervisão de terceiros. Além disso, os vigias tiveram que se comunicar com a IA por um longo período de tempo. E, finalmente, nenhum dado científico valioso obtido durante os experimentos foi publicado, porque, de acordo com o protocolo, "nenhum dos lados dirá sobre qualquer coisa que aconteceu durante os experimentos com a caixa de IA" (Yudkovsky 2002)sem filtros, sem supervisão de terceiros. Além disso, os vigias tiveram que se comunicar com a IA por um longo período de tempo. E, finalmente, nenhum dado científico valioso obtido durante os experimentos foi publicado, porque, de acordo com o protocolo, "nenhum dos lados dirá sobre qualquer coisa que aconteceu durante os experimentos com a caixa de IA" (Yudkovsky 2002)sem filtros, sem supervisão de terceiros. Além disso, os vigias tiveram que se comunicar com a IA por um longo período de tempo. E, finalmente, nenhum dado científico valioso obtido durante os experimentos foi publicado, porque, de acordo com o protocolo, "nenhum dos lados dirá sobre qualquer coisa que aconteceu durante os experimentos com a caixa de IA" (Yudkovsky 2002)

3.1. Contramedidas contra fuga

Nesta seção, propomos contra-medidas contra os vários métodos de escape dos quais a IA pode tirar proveito. As medidas propostas não garantem a impossibilidade de fuga, mas a aplicação dessas recomendações pode atrasá-la, e esse já é um resultado muito valioso. Vamos começar lembrando você de que existem quatro regras de restrição de Lampson (isolamento, transitividade, mascaramento e observação de desempenho) que devem ser seguidas (Lampson 1973). As estratégias específicas descritas abaixo devem ajudar a evitar ataques de IA usando engenharia social, recursos do sistema, física e informações coletadas do mundo externo.

3.1.1. Prevenção de ataques de engenharia social

A inteligência humana não é páreo para a superinteligência. As pessoas tendem a cometer erros, portanto, mesmo com o treinamento adequado, ficam muito vulneráveis a um ataque bem planejado usando SI. A única solução para este problema é isolar completamente a IA de qualquer comunicação com humanos. O isolamento completo significa que nenhuma pessoa mantém o sistema de IA diretamente, não se comunica com ele oralmente, em chat, usando código Morse ou alguma outra ferramenta usando canais de comunicação abertos. Além disso, as pessoas não devem observar diretamente o comportamento da IA na caixa, verificar seu código-fonte ou a área de memória. Qualquer observação, manutenção e interação com a IA só deve ser feita com a ajuda de programas burros que não têm opções para liberar a IA.

3.1.2. Lute contra ataques usando recursos do sistema e conhecimento futuro

Para evitar ataques usando recursos do sistema, você precisa fazer a IA funcionar com base em recursos limitados, decrescentes ou que mudam aleatoriamente. A caixa AI deve ser um hardware especialmente projetado com um conjunto limitado de sensores e dispositivos de saída. Independentemente do paradigma de computação usado, não use hardware configurável. O ideal é que o espaço confinado seja gerenciado por uma máquina virtual que não tenha acesso direto ao hardware. Isso também fornecerá um ajuste fácil para a taxa de clock em que a simulação se move, permitindo que a IA diminua a velocidade para evitar uma explosão inteligente no espaço da caixa (Chalmers 2010). Geralmente,todos os componentes para garantir o uso seguro de uma IA bloqueada devem ser duplicados em vários níveis e, em seguida, tendo superado uma dessas etapas, a IA ainda estará a uma distância de vários passos do mundo exterior e, sem ter tempo de escapar, será desligada, possivelmente automaticamente. Por exemplo, é aconselhável iniciar uma máquina virtual usando outra máquina virtual e assim por diante.

Em alguns cenários de limitação da liberdade, a escalada do autoaperfeiçoamento da IA é indesejável, porque o rápido desenvolvimento da superinteligência torna mais provável a fuga. Para evitar a escalada do autoaperfeiçoamento, a IA deve ser reinstalada periodicamente, carregando a versão anterior do programa para substituir a atual, mais avançada. A comparação de diferentes versões do programa pode ser usada para detectar modificações feitas pelo próprio AI. Ao detectar uma modificação que permite um escape, o sistema AI deve ser interrompido, por exemplo, desligando a energia.

O conhecimento atual não nos permite desenvolver contra-medidas contra ataques por meio de teorias futuras, ainda não desenvolvidas, que surgirão no âmbito da física ou de outras disciplinas que ainda são consideradas pseudocientíficas. À medida que esse conhecimento é adquirido, alterações devem ser feitas no protocolo de segurança. Espera-se que o sistema de IA só tenha acesso aos componentes das novas tecnologias a partir das quais é feito.

3.1.3. Luta contra fatores externos de fuga

Embora seja impossível prevenir completamente os efeitos nocivos dos fatores naturais na caixa de IA, este dispositivo deve ser projetado de forma que seu dano grave implique sua autodestruição junto com a IA travada nele. Quando se trata de desastres causados pelo homem, a melhor estratégia é construir uma caixa de IA em um lugar seguro e secreto de difícil acesso. Uma ilha deserta, uma mina profunda ou um objeto espacial como um asteróide são locais excelentes para criar uma caixa segura e resistente. Uma proteção deve ser instalada ao longo de seu perímetro, a qual, se a localização deste dispositivo for conhecida, não permitirá a entrada de agentes não autorizados.

3.1.4 Luta contra o vazamento de informações de nosso mundo

Para escapar da caixa, a IA tentará obter informações sobre nós, nosso conhecimento e nosso mundo. Para criar protocolos para limitar a liberdade da IA, excluindo o vazamento de informações de nosso espaço para o espaço da caixa, é importante privar a IA de acesso a bibliotecas, redes de computadores e canais de comunicação direta com as pessoas. A caixa AI deve ser projetada para bloquear todos os tipos de comunicação: GPS, internet sem fio, televisão, rádio, celular, etc. Dentro da caixa, som, luz, odor e outros dispositivos de entrada sensorial semelhantes aos receptores humanos, bem como dispositivos capazes de capturar infravermelho, radiação e outros sinais que não são percebidos por humanos, devem ser desligados.

Para que uma IA seja incapaz de obter informações durante o autoexame, ela não deve ter acesso ao seu código-fonte ou a quaisquer sensores que permitam medir com precisão certas propriedades de seu equipamento. Se isso não for possível, então, até certo ponto, a humanidade pode ser ajudada fornecendo segurança por meio da incompreensibilidade. O código-fonte e a configuração do hardware do sistema devem ser confusos (Yampolsky e Govindaraja 2007a), e os módulos importantes do programa devem ser fornecidos apenas na forma criptografada homomorficamente (Gentry 2009), o que exclui a possibilidade de uso para introspecção, mas permite seu uso para computação ou autoaperfeiçoamento (Hall 2007).

A IA é difícil de confundir, mas a confusão necessária pode ser obtida randomizando os recursos de computação disponíveis. Além disso, a IA nunca poderá ter a certeza de que seu design original representa o melhor que a humanidade é capaz de fazer, e não é um projeto limitado convenientemente criado para conduzir um experimento específico dedicado à exploração de uma inteligência com recursos limitados. Além disso, de acordo com Chalmers, devemos tentar minimizar as características específicas de design da IA (Chalmers 2010). Melhor ainda, execute um modelo que não pareça conforme projetado, mas que ocorra naturalmente, como o mundo em que a humanidade vive (Bostrom 2003).

4. Segurança de comunicação com IA

Classificando as formas de limitação da liberdade da IA, existem 8 níveis principais de segurança (ver tabela 1). A mais alta segurança é fornecida pelo nível 8, que exclui completamente qualquer conexão entre a IA e o mundo real. À primeira vista, a segurança de nível 8 é inútil, mas é essa proteção que pode ser necessária ao testar inicialmente uma caixa com uma IA bloqueada. Em geral, a ideia é a seguinte: sempre que precisamos de um certo nível de segurança de comunicação entre a IA e o mundo externo, ao invés de usar imediatamente esse nível, vamos até ele gradualmente, descendo passo a passo dos níveis superiores de segurança. Tendo iniciado o sistema ao mais alto nível e garantindo sua segurança, nós, ao reinstalar, retornamos este sistema ao seu estado original. Em seguida, definimos um nível de segurança inferior e, com o mesmo espírito de antes, avançamos até atingir o nível que desejamos.

Tabela 1: Níveis de comunicação segura com IA bloqueada

Nível	Saídas	Entradas	Explicação
0	Não limitado	Não limitado	Comunicação ilimitada (IA grátis)
1	Não limitado	Limitado	Entrada limitada, saída ilimitada
2	Não limitado	Ausente	Sair sem entrar
3	Limitado	Não limitado	Entrada ilimitada e saída limitada
4	Limitado	Limitado	Comunicação segura (protocolo sugerido)
cinco	Limitado	Ausente	Saída limitada sem entrada
6	Ausente	Não limitado	Entrar sem sair
7	Ausente	Limitado	Entrada limitada sem saída
8	Ausente	Ausente	Falta de comunicação, completamente bloqueado por IA

Nos níveis 7 e 6, o AI não tem saída, o que não nos permite usar diretamente os recursos de superinteligência. Estes são os níveis de teste da caixa de IA que podem ser usados para verificar se a superinteligência possui certas propriedades (como a velocidade de assimilação de informações e o uso de recursos), bem como para testar os próprios canais de comunicação de entrada.

O nível 0 não restringe a comunicação entre a IA e o mundo exterior e é essencialmente um nível de IA gratuito. Nos níveis 1 e 2, a IA não tem restrições quanto à saída de informações. Seu trabalho de nível 2 é essencialmente brainstorming puro. Aqui, a superinteligência gera idéias abstratas sem qualquer dependência da realidade. Mas no nível 1, ele tem acesso limitado a informações externas e, portanto, dentro de uma determinada estrutura, seu conhecimento e interesses podem ser controlados.

Nos três níveis considerados de IA, em essência, é gratuito e não está mais sujeito a quaisquer restrições. Argumenta-se que se uma IA for considerada “amigável” como resultado de testes extensivos em uma variedade de locais de detenção (Yudkovsky 2001), ela deve ser liberada (Chalmers 2010). Segundo alguns pesquisadores, na verdade, o objetivo principal desse tipo de teste deveria ser a criação de espaços confinados para conter IA sob o controle de humanos. A ideia é monitorar o comportamento da superinteligência, ou verificar seu código-fonte após ter feito o autoaperfeiçoamento, ou pedir à IA que forneça alguma prova de sua simpatia que os especialistas humanos possam testar. Não apoiamos este ponto de vista.

Decidir qual IA lançar e qual manter no controle é uma questão muito difícil. Não será difícil para a superinteligência de autoaperfeiçoamento ocultar suas propriedades indesejáveis para a humanidade em matrizes de código-fonte ou em uma prova muito longa (Coleman 2008). Mas outra coisa é ainda pior: mesmo uma verificação muito completa não pode garantir cem por cento que uma futura modificação interna ou externa da IA não a tornará hostil. Como consequência, acreditamos que a superinteligência nunca deve, em nenhuma circunstância, ser deixada fora da caixa. Em outras palavras, os níveis de comunicação 0-2 nunca devem ser usados. A interação segura com a superinteligência só é possível quando está na caixa, e a comunicação deve ocorrer dentro da estrutura de um protocolo de comunicação limitado. Este protocolo,correspondente ao nível de segurança 4 (LB4) é apresentado na próxima seção, assim como o protocolo semelhante, mas menos seguro, nível 3. O nível 5 é outro nível de teste que pode ser usado antes de operar o LB4.

4.1 Como se comunicar com segurança com a superinteligência

Uma caixa que funcione com nossas contramedidas propostas contra a fuga evitará que a IA afete de forma incontrolável o mundo exterior. Infelizmente, este sistema é inútil se não houver uma maneira de obter informações da IA. Portanto, você precisa desenvolver uma maneira de obter alguns dados da IA. Para que a superinteligência seja completamente segura, não deve haver comunicação com ela, mas o risco de comunicação com IA pode ser minimizado, e desenvolvemos um protocolo apropriado. Nesta seção, oferecemos isso de forma clara e formalizada. Este protocolo de comunicação torna difícil para a superinteligência acessar nosso mundo, mas ao mesmo tempo permite que a IA seja uma fonte de conhecimento útil para a humanidade.

As seções anteriores deste artigo mostraram que um canal aberto de comunicação com a superinteligência é muito perigoso. Ao usar IA para responder a perguntas abertas, corremos o risco de ataques de engenharia social e uma série de outros aborrecimentos. O protocolo que propomos é baseado na ideia de fazer “perguntas seguras” à IA com respostas limitadas. Seguro chamaremos uma pergunta, a resposta que uma pessoa pode encontrar sem qualquer ajuda da superinteligência, de forma totalmente independente. Qual é a utilidade aqui? Suponha que um cientista trabalhando em um medicamento contra o câncer esteja considerando dois tratamentos. Cada um deles pode ser desenvolvido e testado sem a ajuda de IA, mas exigirá cerca de três anos de trabalho árduo. Qual maneira de desenvolver em primeiro lugar,se ambas as opções parecem igualmente promissoras? Com a escolha errada, a humanidade receberá a cura do câncer em 6 anos, com a escolha certa - 3 anos antes. Por que não pedir à IA para fazer a escolha pela pessoa?

Perguntar a um IA sobre o melhor tratamento é seguro por três motivos. Primeiro, uma das duas respostas possíveis pode acabar sendo correta com a mesma probabilidade da outra. Em segundo lugar, uma pessoa é capaz de responder a esta pergunta por si mesma, sem a ajuda da IA, e conectar esta última apenas acelerará o desenvolvimento da oncologia, mas de forma alguma alterará o resultado que precisa ser obtido. Na verdade, a IA, ao tentar responder a essa pergunta, atuará como um adivinhador bem-sucedido, nada mais. Finalmente, a resposta pode ser codificada em um único bit, e é improvável que qualquer mensagem adicional possa ser escondida em tal resposta.

Um grupo de especialistas pode ser usado para testar a segurança de uma questão superinteligente. Os especialistas devem ser profissionais de segurança de IA qualificados, o que significa que eles têm conhecimento do design da IA e de sua caixa, bem como dos últimos avanços na ética da máquina (Allen et al. 2006; Anderson & Anderson 2007; Hall 2000; Moor 2006; Tonkens 2009). Além disso, os especialistas podem exigir conhecimentos de psicologia da computação. Não existe tal disciplina hoje, mas é provável que surja no futuro (Epstein 1997). Das disciplinas atuais, a Artimetrics, desenvolvida pelo autor deste artigo, pode fornecer a maior ajuda no treinamento de especialistas que auditam questões de segurança para IA. Artimetrics identifica,classifica e autentica agentes inteligentes, robôs e avatares de realidade virtual para garantir a segurança (Yampolsky 2007; Yampolsky e Govindaradzhu, 2008, 2007b; Gavrilova e Yampolsky 2010).

Eu enfatizo: a superinteligência deve apenas fazer perguntas seguras sobre a probabilidade que os humanos podem calcular, com duas respostas possíveis. Você precisa perguntar por meio de uma interface não inteligente, em ordem aleatória e somente após os especialistas estarem convencidos da segurança da pergunta. Isso representa o canal de entrada limitado do protocolo de comunicação proposto.

O shell de saída limitado consiste em respostas binárias (0 ou 1) seguidas pelas perguntas de segurança originais não modificadas, apresentadas em ordem aleatória por um programa proxy não inteligente para evitar a comunicação por meio de um canal não autorizado (tempo ou memória) que pode ser esteganografado. A saída nunca deve ser controlada pelo AI, fora do menu de seleção. A camada 3 usa o mesmo protocolo de saída, mas não restringe o canal de entrada. Este nível é tão seguro quanto o quarto em termos de informações que vão da IA para nós, mas aqui é possível que nossas informações vazem para a IA.

Acreditamos que nosso protocolo de comunicação - e isso pode ser verificado - protegerá de forma confiável contra vazamentos de informações, mesmo que a IA conheça seu conteúdo. Aplicando corretamente este protocolo, a humanidade será extremamente fértil em usar os serviços de um oráculo superinteligente, e a IA limitada por nosso protocolo é muito mais segura do que gratuita, ilimitada. A regra geral é: se você não quiser problemas de segurança, evite a comunicação abaixo de UB4.

Queremos chamar a atenção da comunidade científica para o fato de que nas condições de desenvolvimento contínuo da física fundamental, da tecnologia da computação e do conhecimento sobre a natureza da inteligência, é necessário refinar e desenvolver constantemente o protocolo para limitar a liberdade da IA. O trabalho nisso sempre continuará e nunca terminará. Neste artigo, demos definições estritas aos conceitos de "problema de restrição de IA", "escape" e "questões seguras". Gostaríamos também de sugerir alguns termos adicionais que podem ser úteis para agilizar as discussões sobre POSITION. O espaço confinado de IA pode ser chamado de JAIL (apenas para localização de IA), e a própria IA superinteligente pode ser chamada de SING (Super Intelligent Gizmo - Superintelligent Gizmo). O termo "SING" refere-se tanto à SINGularity quanto à infame prisão de Sing Sing.tornando mais fácil de lembrar.

Finalmente, gostaríamos de apresentar um símbolo visual para a caixa que contém o programa de inteligência perigosa (Figura 1, extrema direita). Esses símbolos podem ser colocados nas proximidades de diferentes JAILs para alertar sobre o perigo. O sinal para a caixa AI é projetado por analogia com os sinais de risco biológico, radiação e campo magnético. Consiste no símbolo "@" dentro de um triângulo, que é bem conhecido na indústria de informática e tecnologia da informação. Este símbolo, que significa "localizado no endereço", está presente em todos os teclados, tornando sua adoção muito econômica.

Figura: 1. Símbolos de perigo da esquerda para a direita: risco biológico, radiação, campo magnético e caixa de IA.

5. Conclusões e trabalhos futuros

Limitar o acesso de máquinas superinteligentes ao mundo real é uma solução para o problema de segurança de IA que de forma alguma é incomum. A superinteligência não é onipotente. É um programa capaz de considerar todas as escolhas apresentadas por uma dada situação e dar a cada uma uma avaliação correta. Uma vez que a IA é colocada em uma situação em que não há escolha ou é limitada a opções com chances extremamente pequenas de sucesso, a superinteligência será um agente que não terá mais poder do que qualquer outro. Obviamente, uma IA com um canal de comunicação ilimitado pode escapar facilmente, mas uma superinteligência forçada a se comunicar por meio de um canal de comunicação filtrado terá que trabalhar muito para se libertar.

Neste artigo, demos uma definição rigorosa do problema de limitar a liberdade da IA e propusemos um conjunto de regras destinadas a criar um espaço que seria extremamente difícil para a IA escapar, ou pelo menos levaria um tempo significativo. Nossa solução proposta não é totalmente segura, mas é uma contribuição significativa para a coleção de métodos de segurança. Aqui é como nas prisões reais: embora seja possível escapar delas, eles ainda conseguem honradamente cumprir sua tarefa de manter sujeitos indesejados longe da sociedade. Assim que mantivermos “estranhos desconhecidos” em mente e lembrarmos da inatingibilidade da segurança absoluta, podemos perceber que o protocolo de restrição de IA é exatamente a ferramenta que a humanidade precisa para usar com responsabilidade a Singularidade quando ela entra em nossa realidade.

Limitar a liberdade da IA pode facilitar por um curto período de tempo a operação segura de máquinas verdadeiramente inteligentes, especialmente nos estágios iniciais de seu desenvolvimento. Além disso, em nossa opinião, este subcampo da pesquisa de singularidade é um dos principais candidatos a ser reconhecido pela comunidade científica global, uma vez que as pesquisas sobre segurança de computadores e redes, esteganografia, vírus de computador, canais de comunicação secretos, criptografia e guerra cibernética são bem financiadas. e são amplamente publicados em revistas científicas de renome. E embora a metodologia de limitação da liberdade não seja nada fácil de implementar, ela pode garantir a segurança da humanidade por algum tempo até que apareça alguma ferramenta melhor.

Neste artigo, devido ao espaço limitado, não levantamos muitas questões filosóficas relevantes. Iremos considerá-los em um futuro próximo, e agora daremos apenas uma pequena lista. Qual IA cairá na caixa: desenvolvida por humanos ou extraída do sinal interceptado durante a implementação do projeto "SETI" ("Search for Extraterrestrial Intelligence" - "Search for Extraterrestrial Intelligence")? A IA será rasgada para a liberdade, ou talvez considere uma felicidade viver em um espaço confinado? Você pode assustar seriamente uma IA com punição por tentar correr? Quais são as regras éticas para aprisionar um ser inteligente artificial inocente? Temos o direito de desligá-lo, o que, em essência, equivale a assassinato? A IA ficará com raiva de nossa hostilidade em relação a ele e o aprisionará em uma caixa? Ele tentará se vingarse ele fugir? Além disso, devemos considerar o problema da dependência humana das recomendações de IA em todas as áreas da ciência, economia, medicina, política, etc., e também como essa dependência pode afetar nossa capacidade de manter a IA sob controle. A IA obterá satisfação ao atingir seus objetivos em um espaço confinado, como simular uma fuga bem-sucedida? Como punir uma IA se ela nos dá respostas erradas intencionalmente? É possível separar os módulos inteligentes da IA do espaço em que está aprisionada, dificultando a autoanálise da superinteligência e empurrando-a no caminho de uma busca literal da alma? Finalmente, ainda não tentamos analisar os custos financeiros e computacionais de criar um espaço fechado adequado onde uma simulação em escala real do mundo é implementada.devemos considerar o problema da dependência humana das recomendações de IA em todas as áreas da ciência, economia, medicina, política, etc., e também como essa dependência pode afetar nossa capacidade de manter a IA sob controle. A IA obterá satisfação ao atingir seus objetivos em um espaço confinado, como simular uma fuga bem-sucedida? Como punir uma IA se ela nos dá respostas erradas intencionalmente? É possível separar os módulos intelectuais da IA do espaço em que está aprisionada, dificultando a autoanálise da superinteligência e empurrando-a no caminho de uma busca literal da alma? Finalmente, ainda não tentamos analisar os custos financeiros e computacionais de criar um espaço fechado adequado onde uma simulação em escala real do mundo é implementada.devemos considerar o problema da dependência humana das recomendações de IA em todas as áreas da ciência, economia, medicina, política, etc., e também como essa dependência pode afetar nossa capacidade de manter a IA sob controle. A IA obterá satisfação ao atingir seus objetivos em um espaço confinado, como simular uma fuga bem-sucedida? Como punir uma IA se ela nos dá respostas erradas intencionalmente? É possível separar os módulos intelectuais da IA do espaço em que está aprisionada, dificultando a autoanálise da superinteligência e empurrando-a no caminho de uma busca literal da alma? Finalmente, ainda não tentamos analisar os custos financeiros e computacionais de criar um espaço fechado adequado onde uma simulação em escala real do mundo é implementada.

Autor: Roman Yampolsky. Tradução: Alexander Gorlov