Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación hispano-mexicanos

Tomando como base la investigación presentada en la 8º edición del Seminario Hispano-Mexicano de Biblioteconomía y Documentación, se continua el desarrollo de la plataforma experimental para la investigación de canales de sindicación «Resync» con el objetivo de implementar múltiples métodos de clasificación de contenidos, publicados por los medios de comunicación Españoles y Mexicanos. En este sentido, se toma como vocabulario clasificatorio de referencia el tesauro multilingüe europeo, «Eurovoc» que tiene la particularidad de ser multidisciplinar y suficientemente heterogéneo como para poder clasificar contenidos publicados por medios de comunicación de muy diverso ámbito. Por otra parte, para poder emplear adecuadamente el vocabulario, éste se transforma en una ontología funcional con la que es posible realizar el proceso de clasificación atendiendo a 3 algoritmos de clasificación temática de precisión y 2 de clasificación temática general, desarrollados ex profeso para la investigación. Además se incluye la implementación de formularios de evaluación automatizados que permiten recoger las valoraciones de los usuarios, con el objetivo de medir la precisión clasificatoria de cada algoritmo. El resultado de estos nuevos desarrollos se aplica sobre una colección de 400.000 contenidos y noticias publicadas por los medios de comunicación desde sus canales de sindicación en el periodo de 1 mes de ejecución de la plataforma Resync, logrando porcentajes de clasificación que varían del 1,8% hasta el 99% dependiendo del algoritmo empleado. Finalmente se aporta una completa tabla con los resultados cuantitativos detallados de todas las categorías y temáticas de Eurovoc y su los contenidos clasificados según algoritmo utilizado.

Referencia

  • BLÁZQUEZ OCHANDO, M. 2012. [Ponencia]. Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación españoles y mexicanos. En: 9º Seminario Hispano-Mexicano de Bibliotecología y Documentación (México, 7-9 mayo)

Resumen
El objetivo de la investigación es desarrollar un sistema de clasificación automática para los contenidos recuperados a través de la plataforma Resync, especializada en la investigación de fuentes de información en medios de comunicación. Se justifica su desarrollo debido a la falta de métodos automatizados para organizar la información recopilada por medio de dicha plataforma. Por otro lado, debido a la necesidad de estudiar en profundidad las categorías temáticas abordadas por los medios de comunicación según el país. Para resolver estos problemas, se transforma el tesauro multilingüe Eurovoc, en una pseudo-ontología, que es utilizada como vocabulario clasificatorio del corpus documental, compuesto por más de 400.000 noticias publicadas durante los meses de junio-julio de 2011, entre medios Mexicanos y Españoles. Por otro lado, se diseñan y prueban 5 algoritmos de clasificación automática, de consulta precisa y genérica, que emplean el vocabulario clasificatorio anteriormente mencionado, para su equiparación con la colección de prueba. Se obtienen todos los resultados cuantitativos del experimento, concluyendo un escalonamiento progresivo en el porcentaje de contenidos clasificados, dado por el grado de precisión del algoritmo y su condicionamiento. Finalmente se sientan las bases para evaluar cualitativamente la clasificación efectuada por el sistema, con el objetivo de perfeccionar el proceso aquí descrito.

Palabras clave
Clasificación automática, ontologías, tesauros, automatización, sindicación de contenidos, medios de comunicación, normalización de textos, recuperación de información, evaluación

Descargar
Ponencia. 9o-seminario-hispanomexicano-manuel-blazquez-ochando
Presentación. http://prezi.com/lqc4-k5losi6/desarrollo-de-un-sistema-de-clasificacion-automatica-de-contenidos-en-medios-de-comunicacion-hispano-mexicanos/

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *