En 2005 la Universidad de Harvard inició un estudio de alto impacto sobre el genoma humano, denominado Personal Genome Project, para el cual reclutó a 2500 donantes voluntarios de material genético. A ellos se les aclaró desde el inicio que la información que proporcionaran iba a mantenerse en el anonimato: en efecto, a partir del material genético se puede determinar la predisposición a enfermedades o a distintas condiciones, además de que, los voluntarios daban en el cuestionario información sobre alcoholismo y uso de drogas, entre otros datos personales, todos contenidos sensibles cuya difusión podía impactar negativamente en la vida de esas personas.
El equipo del Personal Genome Project borró nombres, números de documento y otros datos de los donantes considerados “personales”. Como se quería conservar cierta información sobre distribución geográfica, se enmascararon los domicilios y se conservó solo la información del código postal. El director del proyecto expresó entonces sus reparos sobre el riesgo de que alguien pudiera reidentificar los registros y acceder a los datos privados asociados a cada persona. Ese riesgo se materializó mucho más rápido de lo esperado, cuando el laboratorio de Data Privacy de Harvard, dirigido por Latanya Sweeney, en un experimento que intentaba poner a prueba la confiabilidad de estos procedimientos, logró reidentificar un 43% de los datos de una muestra de donantes que tomó. La fecha de nacimiento, el código postal y el género resultaron suficientes para identificar los nombres de las personas (consultando información electoral y otras fuentes) (Sweeney et al., 2013). De hecho, en otro trabajo, Sweeney (2000) estimó que un 87% de la población de los Estados Unidos podía identificarse en forma inequívoca en función de esos tres datos.
Este caso hace surgir varias preguntas que abordaremos en este trabajo. ¿Es este un caso singular o es posible reidentificar registros a través de algunos pocos datos si se consultan bases externas? ¿Qué conjuntos de datos, así como ocurrió con la fecha de nacimiento y el código postal, permiten desanonimizar una base de datos? ¿Se pueden formular recomendaciones claras e identificar mejores prácticas para anonimizar un grupo de datos y proteger así la identidad y privacidad de las personas?
Para abordar este tema es útil diferenciar dos conceptos: desidentificar y anonimizar. Desidentificar es eliminar elementos que asocien un registro a una persona individual, como códigos de identificación personal, códigos de dispositivos (direcciones IP, MAC) e identificadores biométricos. Anonimizar, en tanto, es eliminar la posibilidad de asociar registros con los individuos a los que esos registros se refieren. No se trata de acciones en un modelo binario, sino que en general existe un continuo entre registros identificados y registros completamente anonimizados.
Como mostraremos en este artículo, la anonimización de grupos de datos requiere una visión técnica y un cuidadoso análisis. Aquí propondremos una metodología de alto nivel para encontrar soluciones al problema de compartir información sin violar la privacidad y de garantizar la anonimización de las bases de datos.