Evaluación del sistema de clasificación automática de contenidos Resync en medios de comunicación españoles y mexicanos

El pasado miércoles 24 de abril, en el marco del 10º Seminario Hispano Mexicano de Biblioteconomía y Documentación, se presentaron las primeras pruebas de evaluación del sistema de clasificación automática de contenidos Resync, tratado en investigaciones anteriores, pero cuyos algoritmos de clasificación aún no habían sido evaluados. En este caso el algoritmo tratado tiene como objetivo la clasificación de 16.000 noticias procedentes de un corpus de 400.000 contenidos recuperados. Algunas de las conclusiones a las que se han  llegado, indican que la precisión alcanzada supera el 71%, empleando para ello el tesauro Eurovoc que se demuestra de gran utilidad como vocabulario clasificatorio para colecciones de gran heterogeneidad. Por otra parte los evaluadores que valoraron las clasificaciones en los años 2012 y 2013 tienen un amplio consenso a la hora de determinar qué categorías fueron mejor y peor clasificadas, puesto que las líneas de tendencia correspondientes a los porcentajes de relevancia muestran son parejas. Ello implica que la evaluación llevada a cabo goza de una importante fiabilidad. Finalmente se destaca que en estudios análogos a nivel internacional se vienen obteniendo precisiones del 73%, lo que sitúa al presente trabajo, muy cerca de tales resultados, pudiendo en tal caso determinar que la tecnología empleada se encuentra a la altura de los laboratorios de otras universidades y centros de investigación.

Referencia

  • BLÁZQUEZ OCHANDO, M. 2013. [Ponencia]. Evaluación del sistema de clasificación automática de contenidos Resync en medios de comunicación españoles y mexicanos. En: 10º Seminario Hispano-Mexicano de Biblioteconomía y Documentación. (Madrid, 22-24 abril).

Resumen
El objetivo de la investigación es la evaluación de los algoritmos para la clasificación automática de contenidos, diseñados originalmente para la categorización temática de los contenidos y noticias recopiladas con la plataforma Resync. El proceso de evaluación se lleva a cabo con formularios específicamente diseñados para determinar el grado de relevancia de los contenidos clasificados por los evaluadores. Finalmente se determina que uno de los algoritmos utilizados posee un porcentaje de precisión del 71%. También se determina que las temáticas mejor clasificadas son aquellas relativas a finanzas, derecho y política.

Palabras clave
Sistemas de clasificación automática, algoritmos de clasificación, evaluación de algoritmos, recuperación de información

Descargar
Ponencia. 10o-seminario-hispanomexicano_manuel-blazquez-ochando
Presentación. 10o-seminario-hispanomexicano_manuel-blazquez-ochando

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *