Wikipedia2TBX: creació de glossaris terminològics a partir de la Vikipèdia

Quote

1. Introducció

La Vikipèdia (http:wikipedia.org) és una enciclopèdia lliure que s’ha creat de forma col·laborativa. Aquesta enciclopèdia és, a més, multilingüe, és a dir, hi ha versions de la Vikipèdia per a un gran nombre de llengües. Per a cada entrada de la Vikipèdia disposem d’enllaços interlingüístics, que ens porten directament al mateix article en una altra llengua. Els articles de la Vikipèdia, a més, estan organitzats per categories. Això fa que es puguin construir glossaris terminològics a partir de les entrades de la Vikipèdia.

El programa que presentem en aquest document és capaç de crear glossaris terminològics multilingües a partir de la Vikipèdia. Per crear-los, el programa necessita saber de quina àrea o àrees temàtiques i quines són les llengües implicades. Amb aquestes dades mira totes les entrades de la Vikipèdia anglesa que tinguin assignades les àrees temàtiques donades i mira si té enllaços interlingüístics per les llengües requerides. A partir de les dades que va recollint confecciona un glossari terminològic multilingüe i crea un fitxer en format TBX (Term Base Exchange). També pot crear un glossari en format tabulat per a OmegaT. Aquests glossaris són bilingües i per la qual cosa només es tenen en compte les dues primeres llengües donades al programa, la primera com a llengua de partida, i la segona com a llengua d’arribada. La resta de llengües, per a la creació del glossari en format tabulat, les ignora.

Continue reading

TES (Terminology Extraction Suite): Distribució per a Windows

Quote

Aquesta eina d’extracció automàtica de terminologia, desenvolupada especialment per al nostre postgrau en traducció i tecnologies, és una eina de programari lliure que permet extreure termes i buscar automàticament equivalents de traducció. Aquesta eina, tot i estar pensada per a la docència dels conceptes relacionats amb l’extracció automàtica de terminologia, es pot emprar de manera molt eficient en entorns professionals.

L’eina està escrita en Perl i amb interfícies gràfiques implementades en Tk. Això fa que calgui instal·lar una sèrie d’eines i paquets addicionals a l’ordinador, especialment si aquest funciona sota Windows. Aquest procés no és massa complicat i està perfectament explicat als manuals que es distribueixen amb l’aplicació. Sigui com sigui, aquest fet generava algunes dificultats als usuaris i per aquest motiu hem decidit llençar una distribució especial per a Windows que no necessita cap mena d’instal·lació addicional. Només cal descarregar el fitxer zip i descomprimir-lo a qualsevol carpeta. A partir d’aquí només cal fer doble clic sobre TES-Wizard.exe (per calcular els candidats a termes) o sobre TES-Editor.exe (per editar-los i calcular els equivalents de traducció).

Aquesta distribució per a Windows es pot descarregar des de: http://lpg.uoc.edu/TES/TES-09.03-win.zip

La versió font apta tant per Linux, Mac com Windows (cal tenir l’intèrpret de Perl i alguns paquets addicionals). es pot descarregar de: http://lpg.uoc.edu/TES/TES-09.03.zip

Esperem que aquesta nova distribució faciliti la feina als usuaris habituals de Windows.

Recorda que TES és una eina de programari lliure, és a dir, que la pots descarregar lliurement, fer-la servir i redistribuir-la entre els teus col·legues. Tot això sense cap mena de cost de llicència i d’una manera totalment legal.

Antoni Oliver