Investigación y publicaciones del profesor Tomás Saorín

ORCID: 0000-0001-9448-0866 | Google Scholar Profile | Q109671342 en Wikidata

Mis investigaciones se han publicado en congresos, revistas y editoriales como:

El profesional de la información
Information Research
Revista Española de Documentación Científica
BiD
Anuario ThinkEpi
Ibersid
Scire
ISKO Conferences
Editorial EPI-UOC
Arco Libros
Editum UMU
Ministerio de Cultura
The Conversation
Infonomy
DIFF Wikimedia

Últimas publicaciones

Líneas de investigación en metadatos y descripción de recursos, organización del conocimiento, diseño y arquitectura de sitios web, sistemas de gestión de contenidos, SEO, wed semántica, grafos de conocimiento, publicación digital, entornos colaborativos, Wikipedia y Wikidata.

Más de 1001 libros que debes leer antes de morir: medición del cambio, la diversidad y la centralidad en un canon literario mundial contemporáneo en evolución según métricas de Wikipedia y Wikidata

More than 1001 Books you must read before you die: Measuring change, diversity and centrality in an evolving contemporary World Literary Canon according to Wikipedia and Wikidata metrics

BiD, nº 56 (June, 2025)

La cultura del ranking y la selección tiene una larga tradición, cada vez más marcada por la cuantificación y las interacciones digitales en los contextos contemporáneos. Este fenómeno se manifiesta de diversas formas, como las listas de bestsellers y las compilaciones curadas de obras creativas de todos los periodos históricos, que funcionan como marcos para la promoción cultural y el acceso a los contenidos. En el ámbito editorial, audiovisual y del entretenimiento, la inclusión en este tipo de rankings tiene un valor significativo. Este estudio propone metodologías para analizar y comparar listas y rankings dentro de dominios específicos, basándose en la metodología Wiki3DRank, desarrollada para objetos de conocimiento enciclopédico. Aplicado a la literatura, este enfoque ofrece perspectivas sobre los libros como artefactos culturales que captan distintos niveles de atención.A partir de datos procedentes de Wikipedia y Wikidata, la metodología sintetiza tanto información descriptiva como datos estructurados sobre obras literarias. Este enfoque resulta especialmente pertinente para explorar los cánones literarios, un constructo de larga tradición en contextos institucionales, educativos y culturales. El estudio se centra en un subconjunto del canon vinculado a la creación de listas. Aunque muchas listas carecen de una crítica literaria profunda, proporcionan visiones esquemáticas de obras destacadas, a menudo organizadas por periodos históricos, géneros o fronteras lingüísticas y nacionales. Se analizan y miden todas las ediciones internacionales de la obra de Peter Boxall, 1001 Books You Must Read Before You Die, publicadas durante el primer cuarto del siglo XXI, proponiendo métricas para la comparación entre ediciones y con otras listas, así como aportando información sobre los géneros de los autores y las lenguas de las obras.

DOI: https://doi.org/10.1344/bid2026.56.01
Open Access | Repositorio Digitum (pendiente)
Reseña en Blog

Transformación de metadatos OAI-PMH de revistas científicas y repositorios institucionales a conjuntos de datos semánticos RDF

Transformation of OAI-PMH metadata from scientific journals and institutional repositories into RDF semantic datasets

Ibersid: revista de sistemas de información y documentación, Vol. 20, Núm. 1, 2026

Se desarrolla un proceso automatizado capaz de extraer, normalizar, enriquecer y clasificar metadatos OAI-PMH de repositorios institucionales transformándolos en un conjunto de datos semántico RDF. La metodología combina la obtención sistematizada de registros, la normalización de autoridades, el enriquecimiento semántico empleando vocabularios externos y la clasificación temática mediante técnicas de procesamiento de lenguaje natural. El proceso se validó sobre el repositorio de revistas científicas de la Universidad de Murcia, generando un conjunto de datos RDF que fue explotado en una aplicación web ad hoc para la consulta y exploración semántica entre autores, artículos y temas. Los principales resultados muestran la viabilidad, eficacia y escalabilidad de la solución, concluyendo que el marco propuesto contribuye a optimizar la interoperabilidad de los metadatos institucionales.

DOI: https://doi.org/10.54886/IBERSID.V20I1.5133
Open Access | Repositorio Digitum (pendiente)

Escribir sobre libros en Wikipedia: coordenadas para enriquecer la enciclopedia colaborativa desde las bibliotecas

Writing about books on Wikipedia: guidelines for enriching the collaborative encyclopedia from libraries

Anuario ThinkEpi, 19, 2025

Se analiza la relevancia de los artículos sobre libros en Wikipedia como fuente de descubrimiento, orientación lectora y mediación cultural. Se estudia cómo los artículos enciclopédicos sobre obras literarias funcionan como nodos concentradores de información neutral y sostenible, en contraste con la dispersión de reseñas y contenidos promocionales en la Red. A partir de la experiencia en la campaña internacional “Cada libro, su público”, se examinan los criterios de relevancia enciclopédica, la disponibilidad de fuentes y el papel de las bibliotecas y comunidades de práctica en la creación colaborativa de contenidos de calidad. Se argumenta que escribir sobre libros en Wikipedia es una tarea alineada con el rol de la biblioteca como mediadora, en cuyo desarrollo pueden desplegarse estrategias para enriquecer la experiencia lectora y fortalece la conexión entre obras, lectores y comunidades.

Desambiguación en Wikipedia: exploración de los mecanismos de control de autoridades en la enciclopedia colaborativa

Disambiguation in Wikipedia: exploring the mechanisms of authority control in the collaborative encyclopedia

Infonomy, 3(3), 2025

Se estudia el sistema de desambiguación de Wikipedia desde la perspectiva de los instrumentos de control de autoridades y los vocabularios controlados. Wikipedia es un sistema de enciclopedias en diferentes idiomas, organizado en entradas conectadas y referencias cruzadas. Este trabajo explora varios aspectos de las páginas de desambiguación, delimitando su nivel de uso y ratios en las ediciones más extensas. También se exploran otras características relacionadas con el nivel de actividad de sus editores, con el total de artículos afectados por la desambiguación, su tipología, la equivalencia interlingüística y su modelización como datos estructurados. Se presentan, además, datos y métricas para el castellano y el catalán.

DOI: https://doi.org/10.3145/infonomy.25.017
English version | Digitum Repository Pendiente
Reseña en Blog

Wiki3DRank: un modelo para medir la relevancia de objetos de conocimiento mediante datos cuantitativos de Wikidata y Wikipedia

Wiki3DRank: a model for measuring the relevance of knowledge objects using quantitative data from Wikidata and Wikipedia

Ibersid: Revista De Sistemas De información Y documentación, 18(1), 55–70, 2024

SSe presenta el modelo Wiki3DRank, que combina datos cuantitativos extraídos en tiempo real de Wikidata y Wikipedia para obtener un ranking de objetos de conocimiento a través de un valor cuantitativo que mida la relevancia de un objeto frente a otros en un determinado dominio. El modelo se basa en la distribución de los objetos de conocimiento en un espacio vectorial cuyas componentes se basan en tres variables principales: número de declaraciones en Wikidata sobre un ítem, número de artículos en las diferentes ediciones de Wikipedia y extensión en número de palabras de dichos artículos. Estas variables se asocian al nivel de descripción de los ítems de Wikidata, la difusión de los objetos de conocimiento asociados a los mismos en las ediciones de Wikipedia de diferentes idiomas y el grado de elaboración editorial de los correspondientes artículos de Wikipedia. Para demostrar la viabilidad del modelo se analizan una serie de casos de uso sobre diversos dominios: libros, películas, catedrales, terremotos, ríos y elementos químicos.

Un canon literario universal basado en datos enciclopédicos multilingües: propuesta de un método de medición de obras literarias usando datos cuantitativos obtenidos de Wikidata y Wikipedia

A universal literary canon based on multilingual encyclopedic data: Proposal of a method for the ranking of literary works using quantitative data obtained from Wikidata and Wikipedia

Revista Española de Documentación Científica, vol. 43, n. 3, julio-septiembre 2023

Un mapa propio de lecturas para adentrarse en la gestión de información y contenidos digitales: el español como segunda lengua

A personal map of readings to get into information and digital content management: Spanish as a second language

Anuario ThinkEpi, vol. 17, 2023

El trabajo apuesta por la importancia de las lecturas de largo recorrido, para construir un campo, como complemento necesario a los artículos científicos e informes técnicos. Se realiza una revisión de libros de fundamentos, introducción o divulgación vinculados al área de conocimiento de la Information Science. Plantea sobre todo una selección de obras, traducidas al español o no, que puedan funcionar como despertadoras de vocaciones o permitir una amplia visibilidad de las disciplinas relacionadas con la información desde un punto de vista propio, con el foco puesto en la organización del conocimiento.

Big data literario de raíz bibliotecaria: reflexiones sobre infraestructuras de anotación, catalogación, descubrimiento y recomendación de ficción narrativa

Literary big data powered by libraries: reflections on annotation, cataloging, discovery, and recommendation infrastructures for narrative fiction

Anuario ThinkEpi, vol. 15, 2021

Se describe la relación entre el campo de los estudios literarios basados en datos de la corriente distant reading y las humanidades digitales, y la actividad de las bibliotecas y otras entidades del sector del libro en el ecosistema de la recomendación y el descubrimiento de lecturas. Se presentan proyectos de catalogación y descripción enriquecida de la ficción literaria, como OCLC FictionFinder y Kirjasampo, en el marco de los metadatos transmedia y abiertos, entendidos en relación con las prácticas de plataformas de consumo de contenidos digitales como Netflix o Amazon Prime Video, junto a otras prácticas de anotación y edición de textos literarios. Finalmente se plantea la oportunidad de desarrollo de laboratorios bibliotecarios digitales apoyados en infraestructuras de datos abiertas como Wikidata para la descripción enriquecida de ficciones narrativas de todas las épocas de forma colaborativa, para posibilitar proyectos y servicios de descubrimiento de lecturas relacionadas.

Uso de Wikidata y Wikipedia para la generación asistida de un vocabulario estructurado multilingüe sobre la pandemia de Covid-19

Using Wikidata and Wikipedia for assisted generation of a structured multilingual vocabulary about the Covid-19 pandemic

Profesional de la Información, v. 29, n. 5, 2020

Se propone un método para la construcción ágil y dinámica de vocabularios controlados, especialmente para los medios de comunicación, utilizando Wikidata y Wikipedia como fuentes de información terminológica. El método se aplica a la construcción de un vocabulario sobre la pandemia de Covid-19. Mediante un proceso de definición de reglas de expansión de relaciones de Wikidata se ha diseñado un algoritmo en el que se parte de un conjunto de items iniciales y en sucesivas iteraciones y revisión de resultados se recopilan las declaraciones relevantes a la temática del vocabulario.

Grafos de conocimiento y bases de datos en grafo: conceptos fundamentales a partir de una “obra maestra” del Museo del Prado

Knowledge graphs and graph databases: Essential concepts based on a Museo del Prado’s “masterpiece"

Anuario ThinkEpi, vol. 13, 2019

Se presentan los conceptos básicos sobre bases de datos en grafo y grafos de conocimiento, a partir del estudio de caso del modelo semántico digital del Museo del Prado, y el impacto en el rediseño de su sitio web, centrado en el acceso enriquecido a su colección y recursos vinculados, y metadatos para el descubrimiento de contenidos.

Participación en encuentros y congresos

Presentaciones en congresos, seminarnios, talleres y otros encuentros profesionales o académicos.

Datos estructurados y reutilización del conocimiento: Wikidata

Innovación docente con Wikimedia. Experiencias compartidas en las universidades españolas. Universidad Rey Juan Carlos, 20026

Este libro surge del trabajo colectivo de 20 docentes de 13 universidades españolas que comparten una apuesta común: una docencia abierta, colaborativa y con impacto social. En sus aulas, los proyectos Wikimedia (Wikipedia, Wikidata, Wikimedia Commons, OpenStreetMap) se convierten en espacios de aprendizaje donde el alumnado desarrolla competencias clave para el siglo XXI, desde el pensamiento crítico hasta la alfabetización digital. Al editar y compartir conocimiento en plataformas globales, los estudiantes descubren que su trabajo académico trasciende el aula y contribuye al bien común. La publicación reúne experiencias y metodologías reales, mostrando cómo integrar el ecosistema Wikimedia en la enseñanza universitaria. Es también una invitación a experimentar, a construir redes y a sumar esfuerzos en favor de una educación más abierta, conectada y comprometida con la sociedad

La doppia faccia delle relazioni transmediali: percorsi intrecciati tra le opere e i contenuti degli universi di finzione

Seminario Transmedia Library Shelf, Turín, diciembre 2025

Participación en el seminario de presentación del Progetto Lo Scaffale narrativo e transmediale, con el grupo de investigación de la profesora Sara Dinotola de la Universidad de Turín, en el centro cultural Polo del '900 de Turín. ¿Cómo entender las conexiones en las obras creativas? Planteamos un enfoque desde dos caras que se mezclan: las publicaciones y el contenido. El soporte o canal en el que se permite su acceso o consume, y las historias que cuentan. Dos obras están relacionadas porque son del mismo director, o las dos están en Netflix. Pero también dos obras en las que un tornado vuela una cosa o dos en las que un personaje cita a Hamlet. O en una silban un aria de Puccini y en otra una pareja acude a una representación de la ópera a la que pertenece. Más sencillo, o más complicado: dos películas que utilizan el flashback, o dos cómics en los que aparecen Marie Curie o dos novelas en las que describen la batalla de Waterloo.

Visualización y métricas para el análisis del ciclo de vida de la indización: estudio de caso de 25 años de keywords en el diario El País (2000–2024) y prototipo de aplicación web

Congreso ISKO España-Portugal, Oporto, noviembre 2025

Observar el etiquetado temático de noticias durante un periodo extenso de tiempo nos permite realizar observaciones interesantes sobre el ciclo de vida de los keywords, proponiendo una metodología aplicable a otros recursos, tanto de actualidad como de cualquier ámbito de las industrias culturales. Al observar la praxis de indización, tenemos una visión más amplia que al observar el vocabulario como una entidad estática, especialmente en los contextos en los que hay una evolución de la terminología, debida a la propiedad realidad (actualidad periodística) como a la evolución social de los conceptos y puntos de vista (conceptos). Un avance preliminar, alrededor del concepto de "amnistía", lo hemos publicado en 2024 en la revista Infonomy. Por otro lado, pretendemos construir un mecanismo que visualice, explique y cuantifique el cambio de significado de ciertos términos clave a lo largo del tiempo, a través del estudio de las redes de co-ocurrencia y otros patrones..

Derivative Relationships and Bibliographic Families Among Creative Works: A Systematic Study of Their Application by the Wikidata Community from the FRBR and BIBFRAME Perspective

Congreso internacional Dublin Core, Barcelona, octubre 2025

Análisis de todos los registros de obras creativas de estas 4 categorías (obras literarias, obras audiovisuales, obras musicales y videojuegos) para entender qué relaciones se han establecido entre ellas, y estudiarlas desde la perspectiva de las relaciones entre obras como pieza esencial de la creación de metadatos hoy en día. Analizamos datos de más de 2 millones de obras creativas.

Aprender en la biblioteca leyendo

Laboratorios Bibliotecarios en el CitiLab, Cornellá, mayo 2022

Intervención preliminar para el grupo de trabajo durante los Laboratorios Bibliotecarios en el CitiLab de Cornellà, 2022. Publicado en: Saorín, Tomás (2023). Aprender en la biblioteca leyendo. En: Guía Aprender en la biblioteca. Ministerio de Cultura y Deporte. Subdirección de Coordinación Bibliotecaria, pp. 70-71 (Serie LABBS) Descargar capítulo: