Amplifying Data Curation Efforts to Improve the Quality of Life Science Data

Amplifying Data Curation Efforts to Improve the Quality of Life Science Data
22 de Noviembre de 2017

Mariam Alqasab, Suzanne M. Embury y Sandra de F. Mendes Sampaio 

 

International Journal of Digital Curation, ISSN 1746-8256, Vol. 12, n. 1, 2017, p. 1-12

En la época de los datos científicos, los conjuntos de datos son ampliamente compartidos y usados para muchos propósitos que los creadores originales de los datos no se esperaban. En este contexto, los defectos en los conjuntos de datos pueden tener unas consecuencias de mucho más alcance, replicándose de conjunto de datos a conjunto de datos, y afectando a los consumidores de datos de manera que es difícil de predecir o cuantificar. A menudo el resultado es alguna forma de pérdida. Por ejemplo, los científicos que usan datos defectuosos para proponer hipótesis de experimentación pueden gastar unos recursos de laboratorio limitados eligiendo los objetivos de experimentación equivocados.

Recursos para ensayos de medicinas para cicatrices pueden ser usados para probar medicamentos que en realidad tienen pocas oportunidades de ofrecer una cura. Debido al potencial gasto real, los propietarios de bases de datos se preocupan por proveer datos de gran calidad. Las herramientas de conservación automatizadas pueden ser usadas hasta cierto punto para descubrir y corregir algunas formas de defecto. Sin embargo, en algunos campos la conservación humana, efectuada por expertos muy entrenados en sus disciplinas, es necesaria para asegurar que los datos representan nuestra actual interpretación de la realidad de manera apropiada. Los conservadores humanos son caros, y hay mucho más trabajo de conservación para ser realizado que conservadores disponibles para realizarlo. Herramientas y técnicas son necesarias para permitir obtener todo el valor del esfuerzo de conservación actualmente disponible. En este artículo, exploramos un posible acercamiento a maximizar el valor obtenido por los conservadores humanos, extrayendo automáticamente información sobre defectos de los datos y correcciones del trabajo que hacen los conservadores. Esta información está reunida en una fuente de formato independiente, para permitir que sea usada por propietarios de otras bases de datos (para quienes el esfuerzo de los conservadores humanos no está disponible o es insuficiente). Esto amplia los esfuerzos de los conservadores humanos, permitiendo que su trabajo sea aplicado a otras fuentes, sin requerir esfuerzos adicionales o cambiar su proceso o su conjunto de herramientas. Demostramos que esta aproximación puede descubrir un significativo número de defectos, lo que se puede encontrar también en otras fuentes.

Traducción del resumen de la propia publicación

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.