Matemáticas, riesgos y un confuso estudio de datos
Mathematics, risk, and messy survey data
Kristi Anne Thompson, Carolyn Sullivan
IASSIST Quarterly, ISSN 0739-1137, Vol. 44, n. 4, 2020
Las condiciones de financiación de investigación a menudo incluyen requisitos para la conservación de metadatos, incluyendo, si es posible, la posibilidad de compartir datos en un archivo cualificado. Los conservadores de datos tienen que estar preparadas para la posibilidad de que los investigadores que no han compartido datos previamente necesiten ayuda con la limpieza y entrega de conjuntos de datos para cumplir con los requisitos y mantener la financiación.
La “desidentificación” y “anonimación” de datos es una gran preocupación ética en casos en que los datos de la investigación van a ser compartidos, y puede que los profesionales de los datos no estén preparados para afrontarla. Este artículo intenta proporcionar una introducción práctica y accesible a la teoría y conceptos detrás de la “anonimación” de datos y a la gestión de riesgos, describe un par de casos prácticos que demuestras cómo estos métodos se llevaron a cabo en conjuntos de datos reales que requerían “anonimación”, y trata sobre algunas dificultades que se encontraron. Como estrategia práctica, los pasos en la “desidentificación” de conjuntos de datos pueden incluir como primer paso la eliminación de todos los identificadores directos. Después se deben identificar los conjuntos de cuasi-identificadores de riesgo que es preferible mantener. Las tablas de frecuencia pueden ser usadas para identificar pequeñas categorías en estos cuasi-identificadores y determinar agrupamientos apropiados. Estas tablas pueden utilizarse para identificar variables que producen pequeños grupos. El conservador de datos puede preferir suprimir valores individuales antes que reagrupar en esta fase. Grupos más grandes de variables pueden ser investigados repetidamente para localizar agrupamientos potencialmente pequeños, hasta que los conservadores de datos llegan a un conjunto final de clases de equivalencias basadas en la lista total de variables de riesgo modificadas. Si el conjunto de datos ha alcanzado una anonimidad apropiada, puede ser considerado provisionalmente seguro. Como paso final, las variables que están relacionadas con la geografía deben ser tratadas con extremo cuidado. Hay variables no obviamente geográficas como la distancia a la ciudad más cercana, que combinadas con información contextual pueden ser utilizados para situar geográficamente con gran precisión. La puesta a prueba va más allá de la rutina de la “desidentificación” de datos, por lo que el conservador de datos debe ser proactivo al considerar si es necesario mantener ciertas variables o eliminarlas si no son interesantes.
https://iassistquarterly.com/index.php/iassist/article/view/979
Resumen elaborado por Antonio Rodríguez Vela