====== Extracción y búsqueda inteligente de patrones léxico-semánticos de textos oncológicos en Inglés ======

ENTIDAD FINANCIADORA: Fundación Séneca

FINANCIACIÓN: 625000 ptas

DURACIÓN: 2002-2004

ENTIDADES PARTICIPANTES:

Universidad de Murcia

INVESTIGADOR RESPONSABLE:

Pascual Cantos Gómez

INVESTIGADORES PARTICIPANTES:

Pascual Pérez Paredes
Fernando Martín Rubio
Rodrigo Martínez Béjar
Juan García Iborra
Laura María Campoy Gómez
Jesualdo Tomás Fernández Breis
Manuel De las Heras González
Juan Salinas Ramos
Isabel De la Fuente Muñoz

FINALIDAD

Este proyecto se encuadra dentro de la investigación lexicográfica computacional y del tratamiento y gestión automáticos de patrones léxico-semánticos. La lengua objeto de la investigación es el inglés y el ámbito de comunicación o dominio lingüístico el inglés médico-oncológico. La investigación se orienta hacia un objetivo terminal que permita la transferencia de los resultados obtenidos al campo de la aplicación útil para la extracción y búsqueda inteligente de documentes, páginas y sitios WEB de interés para los profesionales e investigadores en el ámbito médico de la oncología que realizan sus actividades en la Región de Murcia. Tal objetivo general se concentrará, en un estadio final, en (1) una base de conocimiento oncológico (en inglés) exhaustiva y actualizada, a la vez que suficientemente contrastada y representativa, de los patrones léxico-semánticos del inglés médico-oncológico, para (2) su integración posterior en un metabuscador WEB específico para dicho dominio lingüístico.
El volumen de información y de estudios oncológicos que se publican a diario en la WEB es ingente. Ello hace que el acceso a dicha información, en crecimiento geométrico, y la consulta selectiva de la misma resulte cada vez más difícil, al no disponer estos profesionales e investigadores de herramientas de extracción y búsqueda de información inteligentes.
Con el presente proyecto queremos, precisamente, aliviar este problema de acceso selectivo a la información, poniendo las últimas investigaciones y tendencias en (1) lexicografía computacional (modelo de constelación léxica) y (2) arquitecturas computacionales del conocimiento al servicio de otras áreas de la comunidad científica, en concreto, de uno de los ámbitos de investigación de máximo impacto social: la oncología. El modelo de constelación léxica, a diferencia de los métodos y procedimientos léxico-estadísticos utilizados hasta ahora para la identificación de datos colocacionales (patrones lexico-semáticos), permite no solamente identificar y delimitar datos colocacionales, sino también determinar estructuras léxico-semánticas superiores, más complejas y jerarquizadas: en modelos tesáuricos. La contrastada fiabilidad y validez del modelo y su computabilidad permiten la extracción automática de datos colocacionales y patrones léxico-semánticos válidos y relevantes.

OBJETIVOS

Recopilar textos y extractos propios del inglés médico-oncológico, para compilar un corpus de textos exhaustivo y representativo de dicho dominio lingüístico.

Obtener el método más eficaz para identificar datos colocacionales (patrones léxico-semánticos) en inglés médico-oncológico.

Valorar la validez de los datos colocacionales iniciales para proceder a su clasificación y tipificación según sus diferentes valores léxico-semánticos y detectar expresiones compuestas y/o frases hechas propias del inglés oncológico.

Determinar la influencia de parámetros de comportamiento y socialización de las palabras en relación a otras, para proceder a la jerarquización ontológica de los términos, frases hechas y/o giros idiomáticos obtenidos.

Implementar la clasificación y jerarquización de términos, frases hechas y/o giros idiomáticos en una bases de datos relacional.

Obtener un modelo de memoria organizacional del inglés médico-oncológico.

Implementar un sistema de extracción de conocimiento médico-oncológico de la Web, válido, fiable y altamente operativo, orientado de forma específica al usuario que hace la consulta: profesional y/o investigador en oncología.