Investigación y publicaciones del profesor Tomás Saorín

ORCID: 0000-0001-9448-0866 | Google Schoar Profile

Mis investigaciones se han publicado en congresos, revistas y editoriales como:

  • El profesional de la información
  • Information Research
  • Revista Española de Documentación Científica
  • BiD
  • Anuario ThinkEpi
  • Ibersid
  • Scire
  • ISKO Conferences
  • Editorial EPI-UOC
  • Arco Libros
  • Editum UMU
  • Ministerio de Cultura
  • The Conversation
  • Infonomy
  • DIFF Wikimedia

Últimas publicaciones

Líneas de investigación en metadatos y descripción de recursos, organización del conocimiento, diseño y arquitectura de sitios web, sistemas de gestión de contenidos, SEO, wed semántica, grafos de conocimiento, publicación digital, entornos colaborativos, Wikipedia y Wikidata.

Escribir sobre libros en Wikipedia: coordenadas para enriquecer la enciclopedia colaborativa desde las bibliotecas

Writing about books on Wikipedia: guidelines for enriching the collaborative encyclopedia from libraries

Anuario ThinkEpi, 19, 2025

Se analiza la relevancia de los artículos sobre libros en Wikipedia como fuente de descubrimiento, orientación lectora y mediación cultural. Se estudia cómo los artículos enciclopédicos sobre obras literarias funcionan como nodos concentradores de información neutral y sostenible, en contraste con la dispersión de reseñas y contenidos promocionales en la Red. A partir de la experiencia en la campaña internacional “Cada libro, su público”, se examinan los criterios de relevancia enciclopédica, la disponibilidad de fuentes y el papel de las bibliotecas y comunidades de práctica en la creación colaborativa de contenidos de calidad. Se argumenta que escribir sobre libros en Wikipedia es una tarea alineada con el rol de la biblioteca como mediadora, en cuyo desarrollo pueden desplegarse estrategias para enriquecer la experiencia lectora y fortalece la conexión entre obras, lectores y comunidades.

Desambiguación en Wikipedia: exploración de los mecanismos de control de autoridades en la enciclopedia colaborativa

Disambiguation in Wikipedia: exploring the mechanisms of authority control in the collaborative encyclopedia

Infonomy, 3(3), 2025

Se estudia el sistema de desambiguación de Wikipedia desde la perspectiva de los instrumentos de control de autoridades y los vocabularios controlados. Wikipedia es un sistema de enciclopedias en diferentes idiomas, organizado en entradas conectadas y referencias cruzadas. Este trabajo explora varios aspectos de las páginas de desambiguación, delimitando su nivel de uso y ratios en las ediciones más extensas. También se exploran otras características relacionadas con el nivel de actividad de sus editores, con el total de artículos afectados por la desambiguación, su tipología, la equivalencia interlingüística y su modelización como datos estructurados. Se presentan, además, datos y métricas para el castellano y el catalán.

Wiki3DRank: un modelo para medir la relevancia de objetos de conocimiento mediante datos cuantitativos de Wikidata y Wikipedia

Wiki3DRank: a model for measuring the relevance of knowledge objects using quantitative data from Wikidata and Wikipedia

Ibersid: Revista De Sistemas De información Y documentación, 18(1), 55–70, 2024

SSe presenta el modelo Wiki3DRank, que combina datos cuantitativos extraídos en tiempo real de Wikidata y Wikipedia para obtener un ranking de objetos de conocimiento a través de un valor cuantitativo que mida la relevancia de un objeto frente a otros en un determinado dominio. El modelo se basa en la distribución de los objetos de conocimiento en un espacio vectorial cuyas componentes se basan en tres variables principales: número de declaraciones en Wikidata sobre un ítem, número de artículos en las diferentes ediciones de Wikipedia y extensión en número de palabras de dichos artículos. Estas variables se asocian al nivel de descripción de los ítems de Wikidata, la difusión de los objetos de conocimiento asociados a los mismos en las ediciones de Wikipedia de diferentes idiomas y el grado de elaboración editorial de los correspondientes artículos de Wikipedia. Para demostrar la viabilidad del modelo se analizan una serie de casos de uso sobre diversos dominios: libros, películas, catedrales, terremotos, ríos y elementos químicos.

Un canon literario universal basado en datos enciclopédicos multilingües: propuesta de un método de medición de obras literarias usando datos cuantitativos obtenidos de Wikidata y Wikipedia

A universal literary canon based on multilingual encyclopedic data: Proposal of a method for the ranking of literary works using quantitative data obtained from Wikidata and Wikipedia

Revista Española de Documentación Científica, vol. 43, n. 3, julio-septiembre 2023

SSe presenta el modelo Wiki3DRank, que combina datos cuantitativos extraídos en tiempo real de Wikidata y Wikipedia para obtener un ranking de objetos de conocimiento a través de un valor cuantitativo que mida la relevancia de un objeto frente a otros en un determinado dominio. El modelo se basa en la distribución de los objetos de conocimiento en un espacio vectorial cuyas componentes se basan en tres variables principales: número de declaraciones en Wikidata sobre un ítem, número de artículos en las diferentes ediciones de Wikipedia y extensión en número de palabras de dichos artículos. Estas variables se asocian al nivel de descripción de los ítems de Wikidata, la difusión de los objetos de conocimiento asociados a los mismos en las ediciones de Wikipedia de diferentes idiomas y el grado de elaboración editorial de los correspondientes artículos de Wikipedia. Para demostrar la viabilidad del modelo se analizan una serie de casos de uso sobre diversos dominios: libros, películas, catedrales, terremotos, ríos y elementos químicos.

Un mapa propio de lecturas para adentrarse en la gestión de información y contenidos digitales: el español como segunda lengua

A personal map of readings to get into information and digital content management: Spanish as a second language

Anuario ThinkEpi, vol. 17, 2023

El trabajo apuesta por la importancia de las lecturas de largo recorrido, para construir un campo, como complemento necesario a los artí­culos cientí­ficos e informes técnicos. Se realiza una revisión de libros de fundamentos, introducción o divulgación vinculados al área de conocimiento de la Information Science. Plantea sobre todo una selección de obras, traducidas al español o no, que puedan funcionar como despertadoras de vocaciones o permitir una amplia visibilidad de las disciplinas relacionadas con la información desde un punto de vista propio, con el foco puesto en la organización del conocimiento.

Big data literario de raíz bibliotecaria: reflexiones sobre infraestructuras de anotación, catalogación, descubrimiento y recomendación de ficción narrativa

Literary big data powered by libraries: reflections on annotation, cataloging, discovery, and recommendation infrastructures for narrative fiction

Anuario ThinkEpi, vol. 15, 2021

Se describe la relación entre el campo de los estudios literarios basados en datos de la corriente distant reading y las humanidades digitales, y la actividad de las bibliotecas y otras entidades del sector del libro en el ecosistema de la recomendación y el descubrimiento de lecturas. Se presentan proyectos de catalogación y descripción enriquecida de la ficción literaria, como OCLC FictionFinder y Kirjasampo, en el marco de los metadatos transmedia y abiertos, entendidos en relación con las prácticas de plataformas de consumo de contenidos digitales como Netflix o Amazon Prime Video, junto a otras prácticas de anotación y edición de textos literarios. Finalmente se plantea la oportunidad de desarrollo de laboratorios bibliotecarios digitales apoyados en infraestructuras de datos abiertas como Wikidata para la descripción enriquecida de ficciones narrativas de todas las épocas de forma colaborativa, para posibilitar proyectos y servicios de descubrimiento de lecturas relacionadas.

Uso de Wikidata y Wikipedia para la generación asistida de un vocabulario estructurado multilingüe sobre la pandemia de Covid-19

Using Wikidata and Wikipedia for assisted generation of a structured multilingual vocabulary about the Covid-19 pandemic

Profesional de la Información, v. 29, n. 5, 2020

Se propone un método para la construcción ágil y dinámica de vocabularios controlados, especialmente para los medios de comunicación, utilizando Wikidata y Wikipedia como fuentes de información terminológica. El método se aplica a la construcción de un vocabulario sobre la pandemia de Covid-19. Mediante un proceso de definición de reglas de expansión de relaciones de Wikidata se ha diseñado un algoritmo en el que se parte de un conjunto de items iniciales y en sucesivas iteraciones y revisión de resultados se recopilan las declaraciones relevantes a la temática del vocabulario.

Grafos de conocimiento y bases de datos en grafo: conceptos fundamentales a partir de una “obra maestra” del Museo del Prado

Knowledge graphs and graph databases: Essential concepts based on a Museo del Prado’s “masterpiece"

Anuario ThinkEpi, vol. 13, 2019

Se presentan los conceptos básicos sobre bases de datos en grafo y grafos de conocimiento, a partir del estudio de caso del modelo semántico digital del Museo del Prado, y el impacto en el rediseño de su sitio web, centrado en el acceso enriquecido a su colección y recursos vinculados, y metadatos para el descubrimiento de contenidos.

Participación en encuentros y congresos

Presentaciones en congresos, seminarnios, talleres y otros encuentros profesionales o académicos.

La doppia faccia delle relazioni transmediali: percorsi intrecciati tra le opere e i contenuti degli universi di finzione

Seminario Transmedia Library Shelf, Turín, diciembre 2025

Participación en el seminario de presentación del Progetto Lo Scaffale narrativo e transmediale, con el grupo de investigación de la profesora Sara Dinotola de la Universidad de Turín, en el centro cultural Polo del '900 de Turín. ¿Cómo entender las conexiones en las obras creativas? Planteamos un enfoque desde dos caras que se mezclan: las publicaciones y el contenido. El soporte o canal en el que se permite su acceso o consume, y las historias que cuentan. Dos obras están relacionadas porque son del mismo director, o las dos están en Netflix. Pero también dos obras en las que un tornado vuela una cosa o dos en las que un personaje cita a Hamlet. O en una silban un aria de Puccini y en otra una pareja acude a una representación de la ópera a la que pertenece. Más sencillo, o más complicado: dos películas que utilizan el flashback, o dos cómics en los que aparecen Marie Curie o dos novelas en las que describen la batalla de Waterloo.

Visualización y métricas para el análisis del ciclo de vida de la indización: estudio de caso de 25 años de keywords en el diario El País (2000–2024) y prototipo de aplicación web

Congreso ISKO España-Portugal, Oporto, noviembre 2025

Observar el etiquetado temático de noticias durante un periodo extenso de tiempo nos permite realizar observaciones interesantes sobre el ciclo de vida de los keywords, proponiendo una metodología aplicable a otros recursos, tanto de actualidad como de cualquier ámbito de las industrias culturales. Al observar la praxis de indización, tenemos una visión más amplia que al observar el vocabulario como una entidad estática, especialmente en los contextos en los que hay una evolución de la terminología, debida a la propiedad realidad (actualidad periodística) como a la evolución social de los conceptos y puntos de vista (conceptos). Un avance preliminar, alrededor del concepto de "amnistía", lo hemos publicado en 2024 en la revista Infonomy. Por otro lado, pretendemos construir un mecanismo que visualice, explique y cuantifique el cambio de significado de ciertos términos clave a lo largo del tiempo, a través del estudio de las redes de co-ocurrencia y otros patrones..

Derivative Relationships and Bibliographic Families Among Creative Works: A Systematic Study of Their Application by the Wikidata Community from the FRBR and BIBFRAME Perspective

Congreso internacional Dublin Core, Barcelona, octubre 2025

Análisis de todos los registros de obras creativas de estas 4 categorías (obras literarias, obras audiovisuales, obras musicales y videojuegos) para entender qué relaciones se han establecido entre ellas, y estudiarlas desde la perspectiva de las relaciones entre obras como pieza esencial de la creación de metadatos hoy en día. Analizamos datos de más de 2 millones de obras creativas.

Aprender en la biblioteca leyendo

Laboratorios Bibliotecarios en el CitiLab, Cornellá, mayo 2022

Intervención preliminar para el grupo de trabajo durante los Laboratorios Bibliotecarios en el CitiLab de Cornellà, 2022. Publicado en: Saorín, Tomás (2023). Aprender en la biblioteca leyendo. En: Guía Aprender en la biblioteca. Ministerio de Cultura y Deporte. Subdirección de Coordinación Bibliotecaria, pp. 70-71 (Serie LABBS) Descargar capítulo: