Avances en clasificación de imágenes en los últimos diez años. Perspectivas y limitaciones en el ámbito de archivos fotográficos históricos
Marçal Rusiñol, Lluís Gómez
Tabula, ISSN 1132-6506, n. 21, 2018, p. 161-174
La visión por computador es la disciplina científica enmarcada dentro del campo de la inteligencia artificial y del reconocimiento de patrones centrada en el diseño de algoritmos computacionales. Esta visión apareció a finales de la década de los sesenta en la época donde las universidades empezaban a investigar en el campo de la inteligencia artificial y, a día de hoy, es una tecnología clave habilitadora en muchos sectores.
Existen aplicaciones de esta visión más cercanas al ámbito archivístico. Dentro del campo de la visión por ordenador, el análisis de documentos aborda el problema de reconocer de manera automática el contenido de documentos. Se puede considerar que el origen del análisis de documentos surge cuando aparecen los primeros sistemas de reconocimiento óptico de caracteres (OCR). Entorno a las fuentes documentales históricas, la informática y las humanidades convergen en el ámbito de las humanidades digitales, un área emergente e interdisciplinaria. La digitalización masiva de los fondos permite construir archivos digitales de imágenes que a menudo son accesibles a través de los portales web de las instituciones. En este artículo nos alejaremos de los fondos documentales, entendidos como documentos textuales, y nos centraremos en los archivos fotográficos. Podremos analizar la clasificación de imágenes en relación a la visión de las mismas por computador, las competiciones PASCAL VOC e ImageNet, el auge del Deep Learning y la aplicación de estas nuevas tecnologías en el ámbito de archivos fotográficos históricos. Se piensa que esta tecnología tiene un gran potencial de aplicación en el marco de los archivos fotográficos, si se quiere tener una colección de imágenes bien curada, el uso de herramientas automáticas siempre dejará lugar a dudas. Sin embargo, estas herramientas pueden resultar muy convenientes para tratar de asistir al archivero en el proceso de anotación de metadatos en un fondo de fotografías históricas. Se necesitaría una base de datos relevante y de gran volumen proveniente de los archivos para poder realizar nuevos entrenamientos y poder evaluar su rendimiento. El punto más crítico recae sobre qué tipo de clases se definirían en el campo de los archivos históricos. En el campo archivístico no solo se anotan los objetos, también el contenido de las imágenes teniendo en cuenta un contexto histórico conocido. Aunque a día de hoy parece lejana esta posibilidad, el campo del Deep Learning ya ha virado hacia esta dirección y puede que empecemos a ver este tipo de resultados a corto plazo.
Resumen realizado por José María Amate Sánchez