Extracción automática de contextos definitorios en textos especializados

2006; Technical University of Valencia; Volume: 37; Issue: 37 Linguagem: Espanhol

ISSN

1135-5948

Autores

Gerardo Sierra, Rodrigo Alarcón Martínez, César Aguilar,

Tópico(s)

Lexicography and Language Studies

Resumo

Uno de los problemas recurrentes de cualquier area de conocimiento es la organizacion y explicacion de los terminos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologias para el trabajo terminologico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se pueden extraer automaticamente terminos y definiciones. Dentro de este marco, el Grupo de Ingenieria Linguistica desarrolla un proyecto en torno a la descripcion y extraccion automatica de contextos definitorios (CDs), los cuales definiremos como aquellos fragmentos de un texto especializado que aportan informacion util para entender un termino en su contexto real, y que pueden ser puntos de inicio para la elaboracion de ontologias, glosarios, diccionarios electronicos, entre otras importantes aplicaciones. Los CDs incluyen un termino, una definicion y patrones definitorios, como patrones verbales (se define como, constituido por), o bien elementos estilisticos como la presencia de marcas tipograficas y variaciones en la tipografia textual que ayudan a resaltar la presencia del termino o la definicion (comillas, cursivas). El estudio de los CDs involucra diversas lineas de investigacion que pueden ser divididas en estudios descriptivos y estudios aplicados. Por un lado, es necesario describir el comportamiento linguistico de los elementos constitutivos de los CDs, y por otro lado es necesario elaborar una metodologia para su extraccion automatica. Asi, encontramos que el estudio linguistico involucra un analisis descriptivo de los distintos tipos de definiciones que suelen introducir los patrones verbales definitorios. A su vez, es comun que en un texto especializado no se repitan constantemente los terminos. En su lugar suelen aparecer referencias anaforicas que los sustituyen y que en muchos casos ocupan el lugar del termino en el contexto definitorio. A partir de estos trabajos descriptivos podemos observar que es necesario, en primer lugar, elaborar una herramienta de busqueda para la extraccion automatica de CDs, y en segundo lugar, identificar automaticamente en estos contextos los elementos constitutivos: el termino y la definicion. Asimismo, se requiere identificar automaticamente cual es el termino en el caso en que este se sustituye mediante una referencia anaforica. Aunque existen varios enfoques metodologicos para la extraccion conceptual en textos especializados, el presente proyecto propone desarrollar un sistema completo y coherente de estructura modular, basado en informacion linguistica, que sea aplicable a diversos corpus textuales especializados en lengua espanola con el fin de extraer automaticamente terminos y definiciones. Igualmente, este proyecto tiene la finalidad de conformar un Corpus de Contextos Definitorios, esto es, un repositorio electronico para los terminos, definiciones y aquellos patrones definitorios que suelen coocurrir en los CDs. En el proyecto participan varios grupos de investigacion. En el aspecto mas teorico, se encuentra un grupo que estudia el concepto de definicion. En un aspecto teorico-practico se analiza desde el punto de vista linguistico la relacion entre el verbo definitorio y el tipo de definicion. Otro grupo en el terreno de la terminotica investiga los patrones sintacticos de los terminos en espanol con el fin de identificar automaticamente los terminos presentes en los contextos definitorios. Otro grupo mas estudia el comportamiento de anaforas en CDs. Finalmente, otro grupo busca desde la linguistica computacional elaborar un extractor

Referência(s)