Actualización de datos de TESEO

La actualización de datos de Teseo, traslada nuevos e importantes resultados. Se ha detectado que el número real de tesis doctorales registradas en la nueva recopilación es de 196.442 frente a las 132.378 obtenidas durante el primer análisis. También se ha detectado el fallo que provocó la recopilación incompleta. Se ha constatado que existió una interrupción de varias horas durante el proceso, provocado por una caída del servicio de conexión a Internet. Por estos motivos se ha procedido a la actualización de toda la información publicada en éste portal. Por ello quisiera pedir disculpas a la comunidad científica y proporcionar los nuevos datos, mucho más precisos, que dibujan un panorama diferente en el sector de las Tesis Doctorales en España.

Cambios producidos en el análisis de los datos

La base de datos TESEO dispone de 196.442 Tesis Doctorales registradas que son accesibles desde 1.190.508 identificadores, de los que 994.066 son duplicados. Los datos obtenidos en el primer análisis hasta el año 2004 son correctos. Sin embargo en el periodo 2004 a 2015 no se había recopilado toda la información, provocando una caída en el número de Tesis Doctorales registradas que en realidad no es tan acusada. De hecho el mayor número de trabajos registrados se produce en el año 2014 con un total de 9.798 entradas. Leer análisis completo en el artículo actualizado «Base de datos TESEO. Primeros datos«.

Cambios en las descargas de TESEO

El incremento en el número de registros de la base de datos TESEO, provoca cambios en los archivos preparados para la exportación en formato SQL, disponibles desde el repositorio de proyectos Sourceforge.net [https://sourceforge.net/projects/teseo-database/]. Para ello se ha creado una nueva versión que corresponde a la versión 1.1 fecha [2015-11-14]. Leer artículo «Catálogo de Tesis Doctorales Españolas TESEO disponible para su descarga«

Próximas actuaciones

Partiendo de la información más precisa posible, obtenida en este  segundo análisis de TESEO, quiero anunciar la publicación de nuevos análisis que se están llevando a cabo. En los próximos días se publicará el análisis cronológico de tesis doctorales según universidades y materias u objetos de estudio. De esta forma se podrá conocer qué áreas de la ciencia son más prolíficas y cómo varía su distribución temporal en la Universidad Española.

Relación de artículos de TESEO

2 respuestas a “Actualización de datos de TESEO”

  1. Fantastico Manuel, enhorabuena por el trabajo y gracias por compartirlo. Seguiré atento a lo que vayas publicando. Sería interesante por un lado saber en este proceso la opinión de administradores de la base de datos de Teseo y conocer mas de cerca el porque de esos 5 millones de referencias convertidas en 196.442 tesis. Por otro lado estaría bien ver ese log de errores en la extracción de datasets para ser analizado, o al menos saber el control que tienes sobre los posibles errores en el análisis y volcado de registros de la base de datos y de que manera los devuelves a un fichero de salida, según comentas fue debido a una interrupción ( conexión, caida del servidor,..tecnología empleada….? ). gracias de nuevo Manuel, felicitaciones y saludos.

  2. Hola Javier,

    Muchas gracias por tu comentario y por las felicitaciones. La tecnología empleada deriva del webcrawler Mbot. He publicado el programa en el artículo «Cómo se obtuvieron los datos de TESEO, aspectos a considerar y nuevas acciones» disponible en la siguiente dirección http://mblazquez.es/como-se-obtuvieron-los-datos-de-teseo-aspectos-a-considerar-y-nuevas-acciones/. En este artículo también se explica el motivo por el que es necesario analizar hasta 5 millones de marcadores. No obstante lo resumo. En realidad los marcadores corresponden a identificadores de las distintas entradas de las fichas de las Tesis Doctorales en TESEO. Por motivos que aún no se conocen con exactitud, a una misma ficha se puede acceder a partir de distintos identificadores, (por ejemplo id 45, 46, 47…) Este hecho, propicia que el programa tenga que aumentar el rango de identificadores que deben ser analizados y distinguir las fichas que ya fueron analizadas del resto. Ésta precaución fue prevista en el desarrollo del programa de crawling a efectos de obtener una relación de objetos únicos. No obstante, en el artículo que he indicado, se explican posibles hipótesis del comportamiento de la base de datos y circunstancias que deben tenerse en cuenta.

    En relación a la tecnología, el programa de crawling y análisis está elaborado en lenguaje PHP y funciona bajo el soporte de un servidor Apache 2.4.10, PHP Version 5.5 y MySQL 5.0.11. El log de fallos que se ha consultado para detectar el error, está en el propio servidor Apache, que ha permitido su posterior análisis y detección. No obstante, sigo trabajando en la revisión e integridad de los datos para asegurar su corrección. De todos modos, parece que ésta segunda revisión se aproxima bastante a la integridad de los datos disponibles «públicamente» en las fichas de TESEO, entre otros motivos por que el sistema no ha reportado nuevos resultados desde el rango https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1190900 a https://www.educacion.gob.es/teseo/mostrarRef.do?ref=5000000 a fecha de hoy 16 de noviembre de 2015. También quiero que se tenga en cuenta, que cada día TESEO publica nuevos registros, en cantidades que oscilan entre las 150 y 300 fichas diarias. Esto significa que de un día a otro los resultados del último año 2015 han podido variar. La Comunidad Científica debe ser consciente de ello y por ese motivo, me comprometo a informar y realizar actualizaciones de los datos año tras año, siempre que la base de datos TESEO me lo permita.

    Espero haber respondido a tus preguntas,
    Y gracias por compartir este trabajo,
    Saludos,
    Manuel.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *