Wikipedia2TBX: creación de glosarios terminológicos a partir de la Wikipedia

Quote

1. Introducción

La Wikipedia (http:wikipedia.org)  es una enciclopedia libre que se ha creado de forma colaborativa. Esta enciclopedia es, además, multilingüe, es decir, hay versiones de la Wikipedia para un gran número de lenguas. Para cada entrada de la Wikipedia disponemos de enlaces interlingüísticos, que nos llevan directamente al mismo artículo en otra lengua.Los artículos de la Wikipedia, además, están organizados por categorías. Esto hace que se puedan construir glosarios terminológicos a partir de las entradas de la Wikipedia.

El programa que presentamos en este documento es capaz de crear glosarios terminológicos multilingües a partir de la Wikipedia. Para crearlos, el programa necesita saber de qué área o áreas temáticas y cuáles son las lenguas implicadas. Con estos datos mira todas las entradas de la Wikipedia inglesa que tengan asignadas las áreas temáticas dadas y mira si tiene enlaces interlingüísticos para las lenguas requeridas. A partir de los datos que va recogiendo confecciona un glosario terminológico multilingüe y crea un fichero en formato TBX (Term Base Exchange). También puede crear un glosario en formato tabulado para OmegaT. Estos glosarios son bilingües y por lo que sólo se tienen en cuenta las dos primeras lenguas dadas en el programa, la primera como lengua de partida, y la segunda como lengua de llegada. El resto de lenguas, para la creación del glosario en formato tabulado, las ignora.

Continue reading

Wikipedia2TBX: creació de glossaris terminològics a partir de la Vikipèdia

Quote

1. Introducció

La Vikipèdia (http:wikipedia.org) és una enciclopèdia lliure que s’ha creat de forma col·laborativa. Aquesta enciclopèdia és, a més, multilingüe, és a dir, hi ha versions de la Vikipèdia per a un gran nombre de llengües. Per a cada entrada de la Vikipèdia disposem d’enllaços interlingüístics, que ens porten directament al mateix article en una altra llengua. Els articles de la Vikipèdia, a més, estan organitzats per categories. Això fa que es puguin construir glossaris terminològics a partir de les entrades de la Vikipèdia.

El programa que presentem en aquest document és capaç de crear glossaris terminològics multilingües a partir de la Vikipèdia. Per crear-los, el programa necessita saber de quina àrea o àrees temàtiques i quines són les llengües implicades. Amb aquestes dades mira totes les entrades de la Vikipèdia anglesa que tinguin assignades les àrees temàtiques donades i mira si té enllaços interlingüístics per les llengües requerides. A partir de les dades que va recollint confecciona un glossari terminològic multilingüe i crea un fitxer en format TBX (Term Base Exchange). També pot crear un glossari en format tabulat per a OmegaT. Aquests glossaris són bilingües i per la qual cosa només es tenen en compte les dues primeres llengües donades al programa, la primera com a llengua de partida, i la segona com a llengua d’arribada. La resta de llengües, per a la creació del glossari en format tabulat, les ignora.

Continue reading