Topo

Cristina de Luca

Estudo comprova que dados anonimizados não protegem a identidade de ninguém

Cristina De Luca

25/07/2019 22h22

Há anos os legisladores debatem sobre a ineficiência do uso de dados anonimizados como proteção da  identidade dos usuários de sistemas digitais, especialmente na Internet.

Quase sempre, a polêmica gira em torno de uma possível reversão do processo de anonimização, que envolve a remoção de informações pessoalmente identificáveis em conjuntos de dados usados para os mais diversos fins. Garantir que os dados possam ser usados ​​estatisticamente para pesquisa médica, por exemplo,  é extremamente importante, mas isso não pode comprometer a privacidade dos pacientes.

Esta semana, pesquisadores do Imperial College London e da Université Catholique de Louvain, na Bélgica, comprovaram que através da combinação de poucos dados anonimizados é possível identificar seus titulares com uma probabilidade bem elevada. Usando apenas 15 atributos demográficos, eles descobriram, por exemplo, que 99,98% dos americanos seriam corretamente re-identificados a partir de qualquer conjunto de dados anônimos.

Para comprovar sua tese, disponibilizaram uma página na Internet onde residentes nos Estados Unidos e no Reino Unido podem testar o algoritmo que desenvolveram, informando apenas sexo, data de nascimento e CEP. O algoritmo avalia e informa a probabilidade de identificação da pessoa a partir desses dados.

Os resultados do estudo foram publicados pela Nature.

À Newscientist, Yves-Alexandre de Montjoye, pesquisador do Imperial College London, disse que o modelo desenvolvido por eles não deixa dúvida de que a incompletude do conjunto de dados não é suficiente para preservar a privacidade das pessoas.

Segundo Montjoye, olhando para um determinado conjunto de dados, pode haver nele muitas pessoas que estão na casa dos 30 anos, são do sexo masculino e vivem em Nova York. No entanto, se o interessado em identificar alguém, souber que a pessoa que está procurando nasceu em 5 de janeiro, está dirigindo um Mazda vermelho, tem duas filhas, um cachorro e mora em um bairro específico de Nova York, então a chance de identificação da pessoa certa é altíssima. Mesmo que os registros não contenham identificadores diretos, como  nome, endereço, e-mail ou telefone.

Onde mora o problema? Conjuntos de dados supostamente anônimos estão sendo vendidos para corretores de dados. E o risco de que possam ser re-identificados e reconciliados, para criar perfis cada vez mais abrangentes de indivíduos, é real e preocupante.

Na opinião dos autores do estudo, chegou a hora de repensar a forma como abordamos a proteção de dados e o que podemos considerar verdadeiramente como dados anônimos. "É preciso reconhecer que as ferramentas não estão funcionando e passar para uma gama diferente de técnicas que nos permitam encontrar um equilíbrio entre usar os dados e preservar a privacidade das pessoas", disse Montjoye.

A anonimização de dados é um dos instrumentos previstos na LGPD para proteção da privacidade do titular do dado. Advogados brasileiros defendem que a avaliação do grau de confiança e da segurança aplicado ao processo de anonimização seja uma das atribuições da Agência Nacional de Proteção de Dados (ANPD). Para esses advogados a ANPD também deve recomendar o uso das ferramentas técnicas mais confiáveis, que dificultem ao máximo a reversão.

Sobre a autora

Cristina De Luca é jornalista especializada em ambiente de produção multiplataforma. É diretora da ION 89, startup de mídia com foco em transformação digital e disrupção. Foi diretora da área de conteúdo do portal Terra; editora-executiva da área de conteúdo da Globo.com; e editora-executiva da unidade de Novos Meios da Infoglobo, responsável pela criação e implantação do Globo Online. Foi colunista de tecnologia da Rádio CBN e editor-at-large das publicações do grupo IDG no Brasil. Master em Marketing pela PUC do Rio de Janeiro, é ganhadora do Prêmio Comunique-se em 2005, 2010 e 2014 na categoria Jornalista de Tecnologia.

Sobre o blog

Este blog, cujo nome faz referência à porta do protocolo Telnet, que é o protocolo de comunicação por texto sem criptografia, traz as informações mais relevantes sobre a economia digital.