Este site utiliza cookies para lhe proporcionar uma melhor experiência de utilização. Ao navegar aceita a política de cookies.
OK, ACEITO

Anonimização e Pseudonimização



39_fluxograma_anonimizacao
“A anonimização de dados pessoais é uma técnica de processamento de dados que remove ou modifica informações que possam identificar uma pessoa. Essa técnica resulta em dados anonimizados, que não podem ser associados a nenhum indivíduo específico. Com a análise de dados anonimizados, podemos criar produtos e recursos seguros e valiosos, como o preenchimento automático de uma consulta de pesquisa inserida, e detectar com mais precisão as ameaças à segurança, como sites de phishing e malware, além de proteger a identidade dos utilizadores. Podemos também compartilhar externamente e com segurança os dados anonimizados, tornando-os úteis para outras pessoas sem colocar a privacidade dos nossos utilizadores em risco”.[1]

















If you think you’ve anonymized a data set, you’re probably wrong

Cory Doctorow

[1] Traduzido de Termos e Privacidade, Google


A anonimização de dados é usada em múltiplas aplicações, num processo que abrange uma diversidade de técnicas (medidas de segurança) com vista à conversão de dados pessoais em dados anonimizados.

A dúvida de Cory Doctorow, aqui propositadamente colocada, justifica uma análise às técnicas de proteção de dados pessoais.


I. Introdução


A quantidade de dados cada vez maior e a velocidade a que precisamos de lhes aceder ditou a que os mesmos sejam preferencialmente tratados através de aplicações informáticas, muitas vezes com uma confiança cega nos operadores e na fiabilidade do seu software robusto. É um facto, a evolução tecnológica e a melhoria das práticas organizativas, promoveram a eficiência e a eficácia dos tratamentos de dados, ao mesmo tempo que introduziram um novo nível de segurança.

Não podemos, no entanto, ignorar que muitos destes metadados, apesar de armazenados e tratadas de modo a garantir a sua segurança e a proteção dos seus titulares, quando acedidos remotamente e relacionados com outras bases de dados, podem tornar-se relevantes para outras finalidades, incluindo as que podem vir a colocar em causa a privacidade dos titulares e, pela sua importância, podem até atingir a disponibilidade e integridade dos responsáveis pelo tratamento dos dados, neste caso da Universidade de Coimbra (UC).

É neste enquadramento que o Regulamento Geral de Proteção de Dados (RGPD) vem impor uma (nova) gestão do tratamento de dados pessoais, com um maior controlo sobre todas as fases que englobam o tratamento de dados pessoais (desde a sua recolha até à sua eliminação), de modo a que sejam preservados os direitos dos titulares dos dados e os riscos de quebra da privacidade sejam minimizados. Do mesmo modo que o RGPD prevê que os dados obsoletos sejam eliminados, também promove a sua anonimização ou a de-identificação (pseudonimização), através de um processo de remoção, modificação ou substituição das suas características individuais, por outras representações codificadas.

Contudo, apesar dos dados anónimos não serem considerados dados pessoais, são sabidos múltiplos casos em que ocorrem falhas de segurança nos processos de anonimização, pelo que não se pode descurar o risco de re-identificação dos titulares dos dados. Por isso mesmo o legislador teve o cuidado de definir “dados pessoais” como a “informação relativa a uma pessoa singular identificada ou identificável («titular dos dados»); é considerada identificável uma pessoa singular que possa ser identificada, direta ou indiretamente, em especial por referência a um identificador, como por exemplo um nome, um número de identificação, dados de localização, identificadores por via eletrónica ou a um ou mais elementos específicos da identidade física, fisiológica, genética, mental, económica, cultural ou social dessa pessoa singular.”[2] Repare-se, o conceito de “identificável” abrange, precisamente todas as situações em que o titular dos dados possa vir a ser identificado, inclusive através do processo de cruzamento de várias bases de dados.

[2] RGPD, Considerando 26 “Os princípios da proteção de dados não deverão, pois, aplicar-se às informações anónimas, ou seja, às informações que não digam respeito a uma pessoa singular identificada ou identificável nem a dados pessoais tornados de tal modo anónimos que o seu titular não seja ou já não possa ser identificado. O presente regulamento não diz, por isso, respeito ao tratamento dessas informações anónimas, inclusive para fins estatísticos ou de investigação.”

RGPD, Considerando 28: “A aplicação da pseudonimização aos dados pessoais pode reduzir os riscos para os titulares de dados em questão e ajudar os responsáveis pelo tratamento e os seus subcontratantes a cumprir as suas obrigações de proteção de dados. A introdução explícita da «pseudonimização» no presente regulamento não se destina a excluir eventuais outras medidas de proteção de dados. “ 


II. Dados anonimizados (de-identificados)


O considerando 26 da Diretiva 95/46/CE, já oferece uma definição conceptual da anonimização, na medida em que, “para anonimizar quaisquer dados, têm de lhes ser retirados elementos suficientes para que deixe de ser possível identificar [de forma irreversível] o titular dos dados. Mais precisamente, os dados têm de ser tratados de forma a que já não possam ser utilizados para identificar uma pessoa singular utilizando «o conjunto dos meios suscetíveis de serem razoavelmente utilizados», seja pelo responsável pelo tratamento, seja por terceiros”.

Por outro lado, no Parecer 5/2014, do Grupo de Trabalho do Artigo 29.º (GT29), veio reconhecer-se as potencialidades da anonimização de dados pessoais, em particular enquanto estratégia para colher as vantagens evidentes para a sociedade, as pessoas e organizações, dos benefícios dos “dados abertos”, respeitando, simultaneamente, os direitos de todos em matéria de proteção dos dados pessoais e da vida privada de cada um. Neste enquadramento, os “dados anonimizados” aparecem definidos como os dados relativos a uma pessoa identificada ou identificável que não pode, razoavelmente, voltar a ser identificada ou identificável (entende-se por critério da razoabilidade, que devem ser utilizadas todas as técnicas conhecidas à época, no processo de anonimização, de modo a que este seja suficientemente robusto, de tal modo que sua reversão seja “razoavelmente impossível”).

No mesmo sentido, a norma ISO 29100:2011, define anonimização como o “processo pelo qual as informações pessoais identificáveis (IPI) são alteradas irreversivelmente de modo que uma entidade IPI já não possa ser identificada direta ou indiretamente, quer pelo responsável pelo tratamento de IPI por si só ou em colaboração com qualquer outra parte”.

Em suma, o processo de anonimização é tanto mais eficaz, quanto maior for a impossibilidade de um titular de dados ser identificado, ou vir a ser identificado, num conjunto de dados ou entre conjuntos de dados separados. Não havendo um processo único de anonimização, a solução ideal será a que apresente em cada processo a maior impossibilidade da “re-identificação dos titulares dos dados”. Por princípio, a anonimização deverá ser um processo irreversível, análogo à destruição.

Apesar do RGPD não se aplicar a dados anónimos ou anonimizados de forma irreversível, importa mesmo assim, relevar quatro notas:

- a entidade que procede à recolha de dados pessoais, mesmo com os objetivos de os anonimizar, está a proceder a um tratamento de dados pessoais enquadrável pelo RGPD;

-  todas as operações de anonimização deficientes estão sob a esfera do RGPD;

- as entidade que recolha dados anonimizados e os submeta a um processo de “re-identificação” sem o consentimento dos seus titulares, estarão a efetuar um tratamento de dados sobre o qual ficam responsáveis;

- a anonimização não anula todos os direitos dos titulares de dados, uma vez que constitui um tratamento posterior de dados pessoais; como tal, deve satisfazer o requisito de compatibilidade em função dos fundamentos jurídicos e das circunstâncias do tratamento posterior[3].

[3] A exemplo, vide Directiva 2002/58/CE do Parlamento Europeu e do Conselho de 12 de julho de 2002 relativa ao tratamento de dados pessoais e à protecção da privacidade no sector das comunicações eletrónicas (directiva relativa à privacidade e às comunicações eletrónicas).


III. Tipos de identificadores e riscos de re-identificação


Os identificadores podem ser diretos ou indiretos. O identificador direto mais comum é o nome (substantivo que serve a designar as coisas e as pessoas), que assume relevo especial como sinal designativo que permite a individualização da pessoa. Contudo, nem sempre este identificador direto é bastante para identificar o titular. Por vezes, só o seu cruzamento com outros indicadores indiretos, através de combinações únicas, permite a identificação eficaz do titular.

Decorre do exposto, que a simples exclusão de elementos identificadores diretos não se releva como suficiente para garantir o anonimato do titular.

Doutro modo, num conceito de maior amplitude, entende-se que também é informação de carácter pessoal aquela que potencialmente conduz à individualização do titular, como o endereço de IP (mesmo que dinâmico). Entenda-se daqui, que não se pode reduzir a noção de dado anónimo (ou anonimizado) por este não conter um identificador direto. A identificação do titular pode, inclusive, decorrer da formação do seu perfil de comportamento.

Atente-se às duas tabelas abaixo onde estão listados dois conjuntos de microdados com vários tipos de identificadores, sendo que na segunda tabela são apresentados atributos sensíveis (relativos a contas bancárias) sobre o titular dos dados. Através do cruzamento dos dois conjuntos de microdados é possível identificar, através de dois identificadores “públicos”, o nome aos registos bancários. Este exemplo, apresentado de modo muito simples, evidencia os riscos inerentes de uma re-identificações dos indivíduos, nomeadamente pela combinação de quase-identificadores (informação dispersa mas suficientemente correlacionada, que potenciam a reconstrução de ligações entre os atributos e os seus titulares).

Por mais rigoroso que seja o processo de anonimização, através de recursos ilimitados a re-identificação dos titulares dos dados poderá ser, em teoria, sempre possível. Assim, a avaliação do Risco poderá ser complementada com uma Avaliação de Impacto sobre a proteção de dados (AIPD).

41_microdata_anonimizacao

(*campo de dados, coluna de dados, ou variável, informação que pode ser encontrada nos registos do conjunto de dados, como o nome, género, endereço ou informação bancária). 


IV. Técnicas de anonimização e pseudonimização


Existem várias técnicas de anonimização que permitem a sua adequação as diferentes necessidades. O encobrimento de caracteres, por exemplo, é utilizado para identificadores diretos e a agregação para identificadores indiretos. A anonimização também pode modificar os dados de modos significativamente diferentes. Alguns modificam apenas partes de um atributo (ex. encobrimento de caracteres); outros substituem o valor de um atributo em vários registos (ex. agregação); alguns substituem o atributo com informação não relacionada, mas consistente (ex. pseudonimização); e alguns removem o atributo totalmente (ex. supressão de atributos).

As várias técnicas de anonimização podem ser combinadas, como a de suprimir ou remover registos (nas extremidades) após a generalização estar concluída.

As técnicas de anonimização mais comuns podem ser agrupadas em duas categorias (Randomization e Generalization), a que se juntam as técnicas de pseudonimização, como se sistematizam na tabela seguinte:

43_tec_anonimiz


V. Software de anonimização


A anonimização só pode ser bem-sucedida quando a mesma é feita através do apoio de software especializado, de forma a permitir a aplicação dos algoritmos de forma sistemática, com base em modelos previamente estabelecidos. Para o caso, listam-se de seguida algumas propostas de Software[4].

40_software_anonimizacao

[4] Análise realizada por Nora Cuppens-Boulahia, Frédéric Cuppens, Noémie Jess, Françoise Dupont, et al. Maxime Bergeat, "A French Anonymization Experiment with Health Data," in Privacy in Statistical Databases, Eivissa, Spain, 2014.  Atualizada por Francisco Pinho, em 2017.


VI. Competências no processo de anonimização e as suas técnicas


A anonimização é complexa e requer conhecimentos específicos sobre as várias técnicas que permitem a sua operacionalização, pelo que a disponibilização de dados anonimizados deve ser precedida de uma avaliação onde é garantida a utilização das técnicas e princípios de anonimização mais evoluídos à época.

A anonimização reduz a “identificabilidade” de um ou mais titulares de dados do conjunto de dados original para um nível aceitável e definido pela Responsável pelo tratamento de dados. Assim, a opção correta de técnicas de anonimização depende do nível de informação explícita e implícita contida nos dados e a quantidade ou o tipo de informação que se pretende anonimizar.


VII. Boas práticas


Para evitar o risco de identificação, deve-se tomar em atenção algumas práticas associadas à anonimização e à pseudonimização.

Na tabela seguinte apresentamos algumas delas.

42_boas_praticas_anonimizacao


VIII. Bibliografia complementar


Contém texto adaptado e excertos de:

- Anonimização de bases de dados empresariais de acordo com a nova Regulamentação Europeia de Proteção de Dados, Frederico António Sá Oliveira Pinho, DCC-FCUP, 2017.

- Guia para Técnicas Básicas de Anonimização de Dados, Governo da Região Administrativa Especial de Macau Gabinete para a Protecção de Dados Pessoais, 2019.

- Proteção de dados pessoais e criptografia: Tecnologias criptográficas entre anonimização e pseudonimização de dados, Diego Machado e Danilo Doneda, 2018.