Resumen del ciclo de conferencias: Mbot, WauSearch, AMPdoc y AXYZnews

El viernes 5 de junio de 2015, finalizó el ciclo de conferencias sobre Tecnologías de la Documentación en la Facultad de Ciencias Sociales y Humanidades de la Universidade Nova de Lisboa. Durante los días que aconteció, se presentaron las últimas novedades en cuanto a desarrollo de aplicaciones y distribuciones documentales, desarrollo de webcrawlers, buscadores y finalmente el primer contacto con el sistema AXYZnews de agregación de canales de sindicación y vigilancia informacional.

Desarrollo de programas webcrawler y buscadores: Mbot y WauSearch

El webcrawler Mbot es un programa de rastreo y análisis de la Web cuyo objetivo es proporcionar información y datos útiles que permitan realizar estudios webmétricos de un dominio determinado en la red. Aunque el objetivo de Mbot es similar al de otros programas como Nutch y Heritrix, las especificaciones de diseño son diferentes. Mbot fue diseñado para funcionar en un entorno Apache, PHP y MySQL, sin necesidad de recurrir a librerías o entornos de desarrollo especiales, que dificultarían su instalación y configuración. Está pensado para rastrear la web en diversas tandas o niveles de profundidad (máximo 10), determinada por los ciclos de análisis de enlaces. Por otra parte es capaz de distinguir y organizar los tipos de contenidos, documentos, imágenes, informaciones, textos que encuentra en cada página web, en una estructura de base de datos diseñada para optimizar el almacenamiento y acceso o recuperación a la información. Otra característica importante es la capacidad de normalización, depuración e indexación de los textos de las páginas web analizadas al mismo tiempo que son rastreadas, evitando tener que realizar procesos de post-tratamiento de los contenidos. También incorpora un módulo de generación automática de informes de cara a proporcionar datos que puedan ser utilizados tanto para la elaboración de estudios de la Web, como para exportar bloques de datos (Big-data) y fuentes de información útiles para el seguimiento y vigilancia informacional con sistemas de agregación de contenidos como AXYZnews.

Todas estas características ya eran conocidas y pueden ser consultadas en detalle en la página oficial de Mbot. Sí resulta inédito el funcionamiento del buscador WauSearch (página oficial de WauSearch), en el que se explica el proceso de transformación de las consultas de los usuarios en un modelo de consulta final que es enviada a los buscadores Google, Bing y Yahoo, para obtener una lista de resultados que será procesada a continuación. Esto significa que WauSearch es capaz de descargar automáticamente las páginas de resultados de los principales buscadores y generar una semilla «seed» que será rastreada por el webcrawler, analizando en profundidad dichos resultados y obteniendo otros nuevos. Todo ello supone un hack o puerta trasera, que WauSearch está utilizando para dirigir el análisis del webcrawler, evitando grandes costes e infraestructuras, que serían imposibles de asumir.

Esquema de funcionamiento del buscador WauSearch
Esquema de funcionamiento del buscador WauSearch

Este proceso de adición de resultados, logra proporcionar información que los buscadores no habían incorporado, complementando sus resultados originales, con los que genera el webcrawler Mbot. De esta forma el usuario de WauSearch obtiene información original de Google, Bing, Yahoo y Mbot, sin repeticiones y con un método de ordenación o ranking de resultados propio. Por estos motivos WauSearch se convierte en una plataforma de pruebas que trata de aprender de la experiencia del usuario en las búsquedas, que permite modificar los algoritmos de ordenación de resultados, el método de rastreo del webcrawler, el interfaz y representación de la información, todo ello bajo el control del investigador.

AMPdoc 2.0 Ecosistema de aplicaciones documentales

La distribución portable de aplicaciones documentales AMPdoc 2.0 puede considerarse un verdadero ecosistema de herramientas de utilidad para el profesional de la información que necesite automatizar su unidad de información y documentación. AMPdoc 2.0 resuelve algunos de los problemas que pueden plantearse en torno a la elección de aplicaciones más adecuadas para las diversas actividades que puede llevar a cabo una biblioteca, archivo, museo, centro de documentación, etc. Por otra parte proporciona una solución fiable al problema del soporte y configuración del servidor web y complementos necesarios para ejecutar los programas o aplicaciones necesarios, permitiendo realizar las pruebas de funcionamiento pertinentes. También evita al profesional de la información realizar complicadas instalaciones, evitándole perder más tiempo del necesario.

Finalmente se presentaron todas las aplicaciones que AMPdoc incorpora en la versión 2.0 entre las que destacan el gestor de contenidos semántico Bedita, el editor de tesauros y ontologías TemaTres, el agregador Selfoss y la herramienta de seguimiento SERP y SEO Serposcope.
Aplicaciones disponibles desde la versión 1
Aplicaciones disponibles desde la versión 1
Aplicaciones añadidas en la versión 2
Aplicaciones añadidas en la versión 2
También se explicaron algunos cambios importantes en cuanto a la interfaz, mejoras en la accesibilidad de las aplicaciones, capacidad para deshabilitar y desinstalar aplicaciones para aligerar el tamaño de la distribución, así como un nuevo método de contacto directo para reportar problemas, solicitar ayuda, colaborar con su desarrollador.

AXYZnews. Sistema de vigilancia informacional

El programa AXYZnews viene siendo el objeto de investigación desde diciembre de 2014. Durante la conferencia, se explicó la importancia del proyecto AXYZnews que podría remontarse a otro anterior denominado SYNC2news, publicado en 2012 y cuyo objetivo era generar un portal de noticias mediante sindicación de contenidos similar a Google News, con la diferencia de implementar todos los «feeds» de medios de comunicación de Estados Unidos, Reino Unido, Francia, Alemania, México y España. Aunque dicho proyecto funcionó durante unos meses, la falta de medios y financiación para mantener la infraestructura, obligaron a cancelar o al menos paralizar su desarrollo. En diciembre de 2014, el Gobierno de España aprueba la Ley 21/2014, de 4 de noviembre, por la que se modifica el texto refundido de la Ley de Propiedad Intelectual, por la que Google España se ve forzada a cerrar su portal de noticias. Ello genera un intenso debate y polémica en la Web y en las redes sociales, por la limitación de las tecnologías de sindicación de contenidos para la redifusión de información, pero más importante aún, el hecho que supone el cierre de aplicaciones que facilitan al ciudadano la posibilidad de contrastar la información entre diversos medios de comunicación, para formar un pensamiento crítico y constructivo. Puede resumirse en una frase << La limitación o anulación del derecho a la información >> 

Estos motivos, entre otros muchos que se explican en el prezi de la presentación, me han involucrado necesariamente en el desarrollo de una investigación que tiene una misión social, democrática, científica y tecnológica. Se trata de crear un sistema de agregación de contenidos que pueda ser utilizado en España a pesar de la nueva Ley de Propiedad Intelectual. Se trata de un software diseñado para la investigación de los medios de comunicación, de sus publicaciones, contenidos y el seguimiento y vigilancia de la información a partir de diversos métodos de monitorización y filtrado. Su diseño incorpora módulos de configuración, estado/mantenimiento, estadísticas, importación de canales de sindicación, edición de canales de sindicación, monitorización del procesamiento, edición de filtros, portada de contenidos, tiempo real de información, contenidos filtrados, buscador, mapa interactivo de contenidos, bloc de contenidos y noticias guardadas. Por otra parte, se explicó el funcionamiento de los núcleos de procesamiento continuo de de datos. Estos núcleos, permiten a AXYZnews recuperar todas las noticias y contenidos de los canales de sindicación, de forma permanente, sin duplicidades, de forma eficiente y eficaz.

Esquema de funcionamiento de los núcleos de procesamiento de AXYZnews
Esquema de funcionamiento de los núcleos de procesamiento de AXYZnews

Aunque AXYZnews se ha demorado en el tiempo, por fin ha sido finalizado en una primera versión plenamente funcional. El siguiente paso será su puesta a disposición de la comunidad académica, científica y de la sociedad para que puedan aprovechar todas las ventajas y capacidades que brinda este sistema. En este sentido, en breve se expondrán las distintas versiones de AXYZnews. Es muy probable que exista una versión en blanco (sin contenidos), un AXYZnews con los medios de comunicación de Portugal, otro específico para los medios de comunicación de España, Estados Unidos, Alemania, Reino Unido, Francia, México y Brasil. No obstante, es muy probable que se añadan nuevas versiones especializadas en Biblioteconomía y Documentación y distintos sectores de la Medicina. En cuanto a la fecha de lanzamiento definitiva, se tiene previsto hacer coincidir con la presentación definitiva de AXYZnews en España. Por tanto en el mes de septiembre con toda probabilidad tenga lugar el lanzamiento como software de código abierto, Open Source. Desde mblazquez.es se seguirá informando de las novedades que van a ir sucediéndose en las próximas semanas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *