encabezado_seccion
encabezado_seccion

Ingeniería lingüística: un área innovadora

A través de la ingeniería lingüística se generan tecnologías informáticas de vanguardia. Foto:Natalia Rentería

30-03-2012

Por María Luisa Santillán, DGDC-UNAM


Ordenarle a la computadora que realice cualquier proceso hoy en día no es nada difícil. Incluso lo hacemos de forma automática tantas veces que ni siquiera nos ponemos a pensar en cómo esta trabaja. Sin embargo, para que pueda realizar lo que se le solicita no depende de un simple click o tecleo. Dentro de ella existen complejos sistemas que fueron creados para hacernos la vida más fácil.

La comprensión y producción de lenguaje natural de una computadora, así como los procesos cognitivos relacionados con ambas tareas, son parte de lo que se conoce como inteligencia artificial. Esta área, derivada de las ciencias computacionales, crea máquinas capaces de reproducir una conducta inteligente aplicada a la resolución de problemas. El objetivo que persigue es que en un momento dado la máquina pueda convertirse en un agente autónomo.

Dentro de la inteligencia artificial, un área de investigación muy fructífera es el Procesamiento de Lenguaje Natural. En ella se trabaja la elaboración y aplicación de modelos teóricos y aplicaciones; como las herramientas computacionales, capaces de analizar, comprender, reproducir y manipular el lenguaje humano, es decir, lenguaje natural.

Tanto la lingüística computacional como la ingeniería lingüística forman parte del área de estudio del Procesamiento de Lenguaje Natural. La primera está relacionada con el desarrollo de una teoría computacional del lenguaje. La segunda implementa modelos teóricos que ayudan al diseño de sistemas computacionales que puedan generar y comprender una lengua de la forma más parecida a como lo hacen los seres humanos.

Trabajo mexicano en ingeniería lingüística

En la actualidad, con una computadora que tenga Internet se puede tener acceso instantáneo a la información en todo el mundo. Esta situación ha revolucionado la forma en cómo nos comunicamos los seres humanos. Por tanto, surge la necesidad de crear sistemas informáticos que permitan interactuar a través del lenguaje humano.

Así, lingüística y computación son dos áreas que pudieran tener poco en común; sin embargo, gracias a la ingeniería lingüística, estas se conjuntan con el único fin de crear programas que permitan que una computadora procese la lengua en sus distintos niveles (fonológico, morfológico, sintáctico, semántico y discursivo). 

Como vemos, la computación y la lingüística van de la mano: juntas logran que la máquina pueda entender el lenguaje, dependiendo de las técnicas que se utilicen. Por tal motivo, la ingeniería lingüística logra que haya un vínculo de comunicación entre los seres humanos y las máquinas. Es decir, hace más amigable la interacción del hombre con la tecnología.

El trabajo que se realiza en esta área del conocimiento no es nuevo. En nuestro país desde la década de los setentas, el doctor Luis Fernando Lara del Colegio de México (COLMEX) aplicó técnicas estadísticas para el análisis automático de un corpus de español mexicano con el fin de crear el Diccionario básico del español de México. 

Además, en México, otras instituciones que han impulsado el estudio y la investigación en la ingeniería lingüística son el Instituto de Ingeniería y el Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS) de la Universidad Nacional Autónoma de México (UNAM), el Instituto Politécnico Nacional (IPN), el Instituto Nacional de Astrofísica Óptica y Electrónica (INAOE) y la Benemérita Universidad Autónoma de Puebla (BUAP). 

En el IIMAS se formó un grupo de investigación en lingüística computacional en 1998, liderado por el doctor Luis Pineda Cortés. Su área de trabajo está enfocada en los diálogos multimodales que emplean lenguaje, gestos e imágenes, así como en los formalismos gramaticales modernos.

Creación del GIL

En el Instituto de Ingeniería de la UNAM se creó el Grupo de Ingeniería Lingüística (GIL) en 1999 dirigido por el doctor Gerardo Sierra Martínez. El objetivo principal de este grupo es impulsar y difundir el área multidisciplinaria de la ingeniería lingüística desde diferentes aspectos.

Por un lado, se impulsa la formación de profesionales especializados que se dedican al estudio y desarrollo de las disciplinas que integran esta área, es decir, computólogos y lingüistas. Cada uno interactúa desde su respectiva área para formar una sola unidad de trabajo. De esta manera, se desarrollan artículos, tesis y proyectos, en el que se encuentran involucrados tanto alumnos de licenciatura como de posdoctorado, quienes conjugan conocimientos lingüísticos y computacionales en pro de la solución de los problemas que presenta el Procesamiento de Lenguaje Natural. 

Por otro lado, la vinculación y la colaboración del GIL con otras instituciones académicas son aspectos importantes que también se impulsan, pues además de la interdisciplinariedad, el GIL promueve la interinstitucionalidad tanto nacional como internacional para lograr mayor impacto en sus objetivos y productos desarrollados. En este aspecto, todos los integrantes del GIL mantienen una constante colaboración con otros grupos de investigación. De esta manera, los académicos y alumnos realizan estancias en otras universidades o instituciones, nacionales y/o extranjeras, para realizar proyectos de tesis o, en su caso, proyectos interinstitucionales. Cabe destacar que esto permite conocer otras perspectivas que nutren las líneas de investigación que se desarrollan dentro del grupo.

Proyectos de investigación del GIL

Todos los proyectos de investigación que se han realizado y que actualmente se están desarrollando en el GIL cuentan con el apoyo y financiamiento tanto de la misma UNAM, por medio del Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT), así como del Consejo Nacional de Ciencia y Tecnología (CONACYT). Por tanto, el GIL ofrece becas a sus alumnos de licenciaturas y de posgrado por su participación en los proyectos de investigación y para la realización de tesis orientadas al Procesamiento de Lenguaje Natural.

Algunas de las aportaciones del GIL incluyen sistemas computacionales desarrollados por sus integrantes. Estos trabajos han servido como una plataforma de investigación aplicada a los diferentes proyectos en los que el grupo participa.

Uno de los primeros proyectos en llevarse a cabo por el GIL fue la creación de un diccionario onomasiológico. La tarea de este diccionario es encontrar un término a partir de su descripción, al contrario de un diccionario común, que presenta la descripción con base en el término (semasiológico).

Con el desarrollo de este diccionario, el doctor Sierra Martínez implementó nuevas líneas de investigación centradas en diversas áreas, tales como la creación de corpus lingüísticos y de diccionarios electrónicos, la extracción terminológica, el desarrollo de bases de datos, entre otras. Actualmente, se encuentra impulsando la lingüística forense.

Corpus lingüísticos

Un corpus es un conjunto de documentos electrónicos con los que se crea una base de datos. Dentro de los proyectos del GIL orientados a la creación de corpus se encuentra el Corpus Histórico del Español en México (CHEM), el cual está integrado por una amplia colección de documentos históricos del siglo XVI al XIX. Este corpus permite conocer cómo se conformó el español mexicano a través de los textos diacrónicos.

El CHEM aprovechó la experiencia obtenida en el GIL con la creación del Corpus Lingüístico en Ingeniería (CLI). Este proyecto se enfocó en reunir información lingüística de las diferentes áreas de la ingeniería: eléctrica, electrónica, civil, mecánica, etcétera. Fue creado a partir de una colección de textos especializados en estas áreas y puede utilizarse con fines de investigación para extraer información lingüística en ingeniería.

Otro corpus que se está desarrollando dentro del GIL, en conjunto con el COLMEX, es el Corpus de Textos Científicos en Español de México (COCIEM). Su objetivo es la búsqueda de términos a partir de conceptos en distintas áreas científicas (Matemáticas, Física, Química, Biología, Educación para la salud y Ecología) a nivel básico, medio y medio superior. Su desarrollo permitirá la creación de un diccionario científico básico del español de México. Con este desarrollo se ofrecen herramientas de análisis lingüístico sobre distintas áreas terminológicas, así como la consulta de información especializada en áreas como la física, la lingüística y la sexualidad, entre otras.

Diccionarios electrónicos

Un proyecto más del GIL es la Interfaz Lexicográfica (ILEX), cuyo objetivo es proporcionar al usuario una herramienta que reduzca el tiempo de búsqueda en la extracción y recuperación de información en diversas áreas del conocimiento. El ILEX se enfoca en los términos básicos del área de lingüística y toma su contenido del Diccionario Básico de Lingüística. Es un trabajo que contiene valores agregados como sería la inclusión de juegos con las palabras que se definen en el diccionario. Además, en esta interfaz es posible encontrar el diccionario onomasiológico.

En esta área, también se desarrolló el Diccionario de Física, cuyo objetivo principal es la búsqueda de términos a partir de conceptos en el campo de la Física a nivel medio superior, incluyendo las formas de uso coloquial proporcionadas por los alumnos para describir un concepto. Su creación permite impulsar áreas de ingeniería de software, así como bases de datos e inteligencia artificial.

Extracción terminológica

En otra línea de investigación, se encuentra la extracción conceptual. Un primer sistema desarrollado por el GIL es el extractor terminológico (TERMEXT), cuyo propósito es la extracción automática de términos en textos especializados. Cuenta con una base de datos terminológica que permite capturar ágilmente la información de los diccionarios electrónicos y vaciar los datos para integrar la base de conocimientos léxica del diccionario onomasiológico.

También existe una línea de investigación basada en la extracción y organización de un término de cualquier área del conocimiento. Dentro de esta línea, se desarrolló el Extractor de Contextos Definitorios (ECODE) que se encarga de la extracción automática de contextos definitorios (CDs). Los CDs son fragmentos de textos especializados que nos brindan información sobre un término en su contexto real. Cabe señalar que a partir de esta extracción conceptual se pueden crear ontologías, glosarios y diccionarios electrónicos, entre otros.

A partir de este último desarrollo, se creó el DESCRIBE, un sistema que extrae definiciones de Internet a partir de la introducción del término (palabra simple o compuesta) en la interfaz. DESCRIBE permite desplegar los URL que contengan información del término, como sus definiciones, sus partes y componentes, así como sus funciones. DESCRIBE es un desarrollo que puede ser utilizado por lexicógrafos, terminólogos, lingüistas y público en general que tengan interés por conocer las definiciones, los componentes y las funciones de un término.

Bases de datos

En esta área, el GIL ha creado el Sistema de Administración de Bancos Terminológicos Flexibles (SABTEF) que tiene como objetivo el diseño de un banco terminológico a partir de textos de especialidad. Contiene definiciones de términos catalogados en diversas áreas temáticas: física, lingüística, ingeniería, metrología, desastres, veterinaria y sexualidad. Este banco permite realizar tres tipos de consultas: por orden alfabético, por palabra clave y por área.

Lingüística forense

Un área reciente de investigación en el GIL es la lingüística forense, en la cual se encuentran la detección de plagio, la atribución de autoría, la comparación forense de voz y la construcción de perfiles lingüísticos. La primera busca identificar las similitudes y diferencias de un texto de entre varios autores. La segunda se enfoca en detectar al posible o los posibles autores de algún texto por medio de rasgos lingüísticos. La tercera, comparación forense de voz, determina el grado de similitud entre las voces de dos o varias grabaciones. Por medio de rasgos lingüísticos es posible la construcción de perfiles lingüísticos que caracterizan a un hablante, tales como su edad, sexo, zona geográfica, dialecto, etc.

La ingeniería lingüística es un área de vanguardia que cada día aporta nuevos conocimientos. Todo el trabajo realizado por el GIL está enfocado en el desarrollo de tecnologías informáticas útiles para resolución de problemas de Procesamiento de Lenguaje Natural. A pesar de no ser un área muy conocida en México, el doctor Gerardo Sierra espera seguir formando especialistas comprometidos con el área, así como seguir colaborando con otras instituciones académicas, nacionales y extranjeras, tal como hasta ahora lo ha hecho, para la elaboración de proyectos de investigación que sean de utilidad en los distintos ámbitos de nuestra vida cotidiana. 

Para mayor información sobre el GIL consultar la página:

http://www.iling.unam.mx/

Publicaciones relacionadas

Instituto de Ingeniería GIL

Instituto de Ingeniería: Grupo de Ingeniería Lingü

Instituto de Ingeniería: Costas y Puertos


Explora la ciencia en la UNAM en tu formato preferido

Enrédate         Síguenos en nuestras redes sociales

 

Gacetas UNAM

 

Misión espacial

 

Covid-19

 

Navega por la Ciencia en la UNAM


Ciencia Joven

Universidad Nacional Autónoma de México (UNAM)
Dirección General de Divulgación de la Ciencia (DGDC)
Hecho en México. Todos los derechos reservados 2024. La información aquí publicada tiene como fuente principal a investigadores de la UNAM y es responsabilidad de quien la emite; no necesariamente refleja el punto de vista de esta institución. Los contenidos pueden ser reproducidos con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma, requiere permiso previo por escrito de la institución. Créditos

Apoyado por Proyecto PAPIME PE306815

Sitio web administrado por:
Dirección General de Divulgación de la Ciencia de la UNAM

Desarrollado por Smart Systems

/DGDCUNAM