Introducción a los modelos clásicos de Recuperación de Información
Fidel Cacheda
Revista General de Información y Documentación, Vol. 18, 2008
Artículo que aborda las principales características de los modelos clásicos de Recuperación de Información. Establece las diferencias entre Recuperación de Datos (RD) y Recuperación de Información (RI). Los modelos de RI establecen el mecanismo empleado para realizar el procesamiento de las consultas de los usuarios y son una representación abstracta del proceso de RI; a partir de una necesidad de información y de una colección de documentos, intentarán predecir si un documento puede ser considerado relevante o no y en qué grado; su objetivo final es obtener una ordenación para los documentos relevantes y pertinentes para esa necesidad de información. Los modelos clásicos son: el modelo booleano, el modelo probabilístico y el modelo vectorial. El modelo booleano se basa en la teoría de conjuntos, sus principales ventajas se centran en su sencillez y sus desventajas consisten en que no es posible ordenar los resultados obtenidos ni se tiene en cuenta el número de veces que aparece una palabra en un documento, además de que puede resultar confuso para los usuarios menos expertos, es el ofrece los resultados más modestos. El modelo probabilístico se basa en un proceso iterativo, su principal ventaja es que constituye un modelo teórico importante que permite representar el proceso de RI y el conjunto resultante proporciona una ordenación de los documentos de acuerdo a su probabilidad de relevancia, entre sus desventajas está la necesidad de iniciar el modelo a partir de una primera estimación del conjunto de documentos relevantes y no se tiene en cuenta el número de veces que cada término aparece en un documento a la hora de estimar su probabilidad de relevancia. El modelo vectorial representa los documentos como vectores de términos y viceversa, recupera los documentos relevantes en función de la similitud de los vectores de los documentos con el vector de consulta, en un espacio n-dimensional. Permite aciertos parciales, ya que un documento puede ser considerado relevante aunque no incluya todos los términos de la consulta y permite una implementación eficiente para grandes colecciones de documentos; sus desventajas son que se pierde parte de la información sintáctica y semántica del documento y que se basa en la independencia de los términos dentro de un documento. Los dos últimos modelos proporcionan valores equiparables en cuanto a la calidad de sus extensiones.
Resumen elaborado por : Alma Rosa González Rodríguez