Como Os Segredos Do Manuscrito Voynich São Revelados: Uma Investigação - Visão Alternativa

Índice:

Como Os Segredos Do Manuscrito Voynich São Revelados: Uma Investigação - Visão Alternativa
Como Os Segredos Do Manuscrito Voynich São Revelados: Uma Investigação - Visão Alternativa

Vídeo: Como Os Segredos Do Manuscrito Voynich São Revelados: Uma Investigação - Visão Alternativa

Vídeo: Como Os Segredos Do Manuscrito Voynich São Revelados: Uma Investigação - Visão Alternativa
Vídeo: MISTÉRIO: SEGREDOS DO MANUSCRITO DE VOYNICH 2024, Pode
Anonim

O que está por trás das notícias sensacionais sobre o manuscrito Voynich e sobre os cientistas russos é que é possível determinar com precisão a linguagem do texto, quão adequados os matemáticos são para trabalhar no "campo" da linguística.

Em 19 de abril, a mídia russa divulgou notícias sobre a descoberta "marcante" dos matemáticos russos: cientistas que usaram o novo método não só provaram a significância do famoso "manuscrito Voynich", mas também puderam determinar que ele foi escrito em duas línguas, com exceção das letras para as vogais.

O Manuscrito Voynich é um manuscrito ilustrado medieval adquirido em 1912 pelo antiquário Wilfred Voynich. Criado no século 15 (com base na análise de radiocarbono de pergaminho - mas a maioria dos cientistas no momento não considera o texto em si uma falsificação posterior), ele foi escrito em uma língua desconhecida usando um alfabeto desconhecido. A julgar pelas ilustrações, o texto é composto por blocos temáticos: botânico, astronômico, farmacológico e outros. A complexidade de decodificar o texto fez do manuscrito Voynich um “Santo Graal” para os criptógrafos e objeto de muitos estudos, incluindo aqueles que usam métodos de Big Data.

A notícia sobre o manuscrito foi relatada como algo sensacional. Isso imediatamente despertou alguma preocupação. “Antes, todas as tentativas de decifrar um documento único e até mesmo apenas entender se se tratava de um texto significativo falhavam. 600 anos de esforços inúteis!.. Criptógrafos da CIA e NSA, supercomputadores e até doutores das "ciências ocultas" assinaram sua total impotência. A última mensagem do criptologista Gordon Rugg, da Universidade Keele, no Reino Unido, diz: “O manuscrito Voynich é falso. Esse “texto complexo” é fácil de construir para qualquer pessoa familiarizada com métodos simples de cópia”, disse o artigo.

Em primeiro lugar, a significância do texto foi reconhecida na década de 1970 e várias vezes confirmada em estudos da década de 2010, sobre os quais se escreveu com detalhes suficientes até mesmo na mídia nacional. Em segundo lugar, a descoberta submetida à notícia foi apresentada apenas na forma de um preprint do instituto, e não em um artigo em um jornal internacional com revisão por pares (o preprint também foi publicado em 2016).

Essas esquisitices na apresentação do material nos obrigaram a buscar esclarecimentos primeiro do autor do estudo e, depois, de especialistas independentes - linguistas que trabalham com métodos estatísticos e matemáticos, bem como com decodificação de escritas antigas.

É fácil escrever uma fórmula, mas é muito caro realizar análises numéricas

Vídeo promocional:

Primeiro, brevemente sobre a essência do estudo. Os autores da pré-impressão, matemáticos do Instituto de Física e Tecnologia de Moscou e do Instituto de Matemática Aplicada da Academia Russa de Ciências, contam com seus trabalhos, segundo os quais "a distribuição de frequência dos símbolos do texto é uma característica estável não do autor ou do sujeito do texto, mas da linguagem". Ou seja, por meio de um conjunto com o auxílio de ferramentas matemáticas, é possível determinar em qual idioma ele está escrito, devido ao fato de que cada idioma possui seu "perfil" característico (distribuição do expoente de Hurst). Além disso, tomando esses métodos como base, os cientistas estabeleceram que o texto do manuscrito foi escrito em uma mistura de vários idiomas. Ao mesmo tempo, espaços falsos foram adicionados a ele e os símbolos que denotam sons vocálicos foram removidos.

O principal autor do estudo, Yuri Orlov (IPM RAS e MIPT), enfatizou que o manuscrito Voynich não é de forma alguma o objetivo principal de seu trabalho. "O manuscrito 'sensacional' é apenas uma ilustração do método matemático de reconhecimento de linguagens a partir do texto - um problema, na verdade, para o aprendizado de máquina", disse Orlov.

O manuscrito em si não é absolutamente interessante para nós. A ciência se refere especificamente às estatísticas das línguas. Por meio dele, podemos entender em que idioma este manuscrito foi escrito. Mas não o que está escrito lá, este é um ponto importante. - Yuri Orlov. MIPT e o Instituto de Matemática Aplicada em homenagem a M. V. Keldysh

Em relação ao método linguístico utilizado na obra, Orlov destaca que a análise da frequência das combinações de letras nos próprios textos é conhecida. No entanto, o indicador de Hurst é pouco conhecido pelos linguistas, uma vez que é difícil de calcular, mesmo em termos matemáticos. A fórmula em si é fácil de escrever, mas a análise numérica é muito cara. Para isso, o supercomputador localizado no Instituto em homenagem a M. V. Keldysh, enfatiza o matemático.

A escolha das línguas indo-europeias para análise é explicada pelo fato de que são todas muito semelhantes, diz Orlov. Indicadores desenvolvidos por matemáticos tornam mais fácil distinguir idiomas dentro do mesmo grupo de idiomas, mas não entre famílias. Claro, é teoricamente possível realizar o mesmo trabalho com outros grupos (Ural, Altai ou outros), mas o valor da análise está na sua completude, Orlov tem certeza. No caso das línguas indo-europeias, não é difícil digitar um corpus de textos para cada língua, é mais difícil fazê-lo com outras famílias.

Voltando ao manuscrito Voynich, Orlov observou que ele e seus colegas citaram cinco provas (o perfil logarítmico da ordem de frequência das letras no texto em um e vários idiomas, a distribuição do expoente de Hurst, o retrato espectral da matriz de probabilidades condicionais e outros) da hipótese sobre a mistura de idiomas no manuscrito e a exclusão letras para vogais. Eles se distanciaram enfaticamente do "hangout em torno do manuscrito", mas apresentaram um resultado único - um método aberto, análise estatística com avaliação de confiabilidade que pode ser verificada de forma independente.

A conclusão é depreciada pelo fato de que não entendemos de que material eles derivaram e de que - eles checaram sua fórmula

A própria suposição de que o texto do manuscrito Voynich é desprovido de letras para vogais, com espaços incorretamente espaçados é bela e boa, observa a lingüista Evgenia Korovina, que se dedica à estatística matemática da linguagem (Instituto de Linguística, Academia Russa de Ciências). Anteriormente, ninguém apresentou tal hipótese. Ela, por exemplo, explica lindamente por que há menos letras do que se esperaria em um texto europeu. Mas o problema é que os autores do estudo nem mesmo indicaram quais textos em diferentes línguas compararam e qual foi o volume dessas provas. Um grande número de idiomas é mencionado no preprint. Portanto, o estudo não é reproduzível: se você pegar textos arbitrários nas mesmas línguas, não é um fato que os mesmos padrões irão surgir.

Maria Molina, especialista em métodos de corpus no estudo de línguas antigas (Instituto de Linguística, RAS), concorda com Korovina. Novos métodos de processamento de dados linguísticos, em sua opinião, ajudam a obter informações sobre o que antes era fechado aos pesquisadores da linguagem. No entanto, o material de entrada insuficientemente bem preparado muitas vezes desacredita até mesmo as melhores técnicas de processamento de dados.

A conclusão é depreciada pelo fato de que não entendemos de que material eles estavam tirando e em que estavam verificando sua fórmula. Para o meu material, tenho certeza de que há um pequeno erro metodológico - e recebo números criticamente diferentes. - Maria Molina. Instituto de Linguística RAS

“Garbage in - garbage out”, acrescenta Molina (GIGO é um princípio em ciência da computação que significa que dados de entrada incorretos irão resultar em resultados incorretos, mesmo se o próprio algoritmo estiver correto, - note Indicator. Ru).

Os métodos estatísticos ainda são indícios de resultados, não resultados

Albert Davletshin (um funcionário do Centro de Estudos Linguísticos Comparativos do Instituto de Estudos Comparativos da Universidade Estatal Russa de Humanidades, estuda as línguas maia e polinésia) falou ainda mais nitidamente. Se os autores da pré-impressão não iam decifrar o manuscrito Voynich, por que o estão fazendo? E, além disso, se falamos especificamente sobre a decodificação da escrita desconhecida, surgem perguntas após perguntas: “Não há dados iniciais sobre a escrita - que tipo de letra? Como as diferentes transcrições são obtidas? Quantos personagens? O que está por trás das suposições existentes sobre a natureza da escrita? Qual é o comprimento de uma palavra separada por espaços e sem espaços? O que significam os espaços? Qual é o tamanho do dicionário? Qual é a proporção de assinaturas e desenhos?

A princípio, verifica-se que o texto é dinamarquês e apenas dinamarquês (e isso é historicamente impossível, sobre o qual não há uma palavra na obra). Em seguida, verifica-se que o texto está em duas línguas desconhecidas (a verificação nesta fase é impossível e é assumida com base na fé). Além disso, existem muitas maneiras conservadoras de mostrar que duas (grandes) páginas são escritas em uma letra, mas em línguas diferentes, sem recorrer a modelos matemáticos complexos. Finalmente, se as vogais forem removidas do texto, o quanto isso é confirmado por métodos padrão conhecidos há muito tempo (por exemplo, por Sukhotin, Shevoroshkin e Ventris)?"

Davletshin também critica a insensibilidade à filologia e à história, característica desse tipo de pesquisa:

O que vejo no texto: muitas vezes há pessoas que querem pegar a fonte X e esquecer que é uma fonte e existe em algum histórico, incluindo lingüístico, contexto, e de alguma forma contar algo nele. A hipótese de que existe mais de um idioma em um manuscrito é interessante. Mas você poderia de alguma forma mostrar isso de forma humana. Os métodos estatísticos ainda são dicas de resultados, não resultados. -Albert Davletshin. Centro de Estudos Linguísticos Comparativos, IVKA RSUH

Não há critério para distinguir resultados interessantes de terríveis

Uma posição mais equilibrada foi assumida por Georgy Starostin, um especialista em lingüística histórica comparada (RSUH). Ele estava mais interessado em como os novos métodos matemáticos são úteis para resolver problemas enfrentados pelos linguistas. “O modelo apresentado no artigo causa uma impressão estranha. Por um lado, parece pertencer à categoria de "cego", analisando dados de texto sem qualquer julgamento preliminar sobre a estrutura do alfabeto (por exemplo, dígrafos, como o inglês ch, sh, devem ser considerados combinações de duas letras, embora esta seja na verdade uma som). Por outro lado, as vogais são lançadas para fora das cordas comparadas, as quais, segundo os autores do texto, contêm menos informações e, antes, acrescentam ruído. Em geral, a base de teste é claramente muito pequena, é impossível falar sobre algo fundamental em tantos idiomas."

Os resultados da comparação das línguas indo-européias e uralicas, apresentados na tabela comparativa 3 do artigo, não inspiram otimismo particular no Starostin. Alguns indicadores do grau de proximidade das línguas são bem captados (por exemplo, conexões intra-germânicas ou intra-românicas), outros mal (por exemplo, a metodologia não identifica mais a família indo-européia). O principal é que não há critério para distinguir resultados interessantes de terríveis. Na melhor das hipóteses, o método torna possível destacar pequenos grupos linguísticos (embora mesmo aqui não funcione entre finlandês e estoniano intimamente relacionados), mas todos esses grupos podem ser identificados de forma confiável sem ele.

Tabela 3 da pré-impressão, que apresenta os resultados da comparação das línguas indo-européia e urálica. Da mesma cor da mesa. Identificam-se 3 grupos de línguas que são pares próximos (no sentido da norma L1 de distribuição de frequências ordenadas em textos sem vogal). Alguns pares de idiomas inesperadamente próximos são marcados em vermelho, como alemão / húngaro, inglês / estoniano, latim / basco e grego / finlandês. Autores da pré-impressão: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabela 3 da pré-impressão, que apresenta os resultados da comparação das línguas indo-européia e urálica. Da mesma cor da mesa. Identificam-se 3 grupos de línguas que são pares próximos (no sentido da norma L1 de distribuição de frequências ordenadas em textos sem vogal). Alguns pares de idiomas inesperadamente próximos são marcados em vermelho, como alemão / húngaro, inglês / estoniano, latim / basco e grego / finlandês. Autores da pré-impressão: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabela 3 da pré-impressão, que apresenta os resultados da comparação das línguas indo-européia e urálica. Da mesma cor da mesa. Identificam-se 3 grupos de línguas que são pares próximos (no sentido da norma L1 de distribuição de frequências ordenadas em textos sem vogal). Alguns pares de idiomas inesperadamente próximos são marcados em vermelho, como alemão / húngaro, inglês / estoniano, latim / basco e grego / finlandês. Autores da pré-impressão: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Por fim, determinar a característica genética de uma língua pela distribuição do expoente de Hurst é uma ideia interessante e, talvez, até levada a algum ponto científico. Mas isso exigirá o processamento de um grande número de textos em diferentes idiomas. E o problema surge imediatamente: muitas línguas não são escritas, e ainda não está claro como é correto comparar os sistemas de registro alfabético com as transcrições fonéticas. Essa ideia terá muito pouco sentido prático, Starostin tem certeza. Na melhor das hipóteses, ele realmente pode ser aplicado a incidentes como o manuscrito Voynich, quando há uma hipótese de que algum idioma com uma escrita alfabética padrão é criptografado de acordo com certos princípios (por exemplo, com a exclusão de vogais, etc.). No entanto, existem poucos incidentes desse tipo no mundo.

Resumindo

O que há no resultado final? A discussão em torno da pesquisa IPM e MIPT revelou uma cisão profunda entre a comunidade linguística (mesmo aqueles que usam métodos estatísticos) e “outsiders” em relação aos especialistas em linguística que decidiram aplicar suas ferramentas matemáticas ao material linguístico.

O fato de os matemáticos não quererem trabalhar com linguistas não dá apenas origem a erros grosseiros, que depois migram para a mídia (por exemplo, a língua basca na pré-impressão é chamada de indo-europeia, há a frase "letras vocálicas"). A beleza dos modelos e o poder computacional dos supercomputadores são realmente desvalorizados por erros no ponto de entrada. Novamente, com o desejo e a abertura de contatos com colegas de uma disciplina diferente, esses erros poderiam ser facilmente evitados.

Veja o próprio Manuscrito Voynich aqui.

Recomendado: