Conversión de memorias de texto tabulado a TMX con tikal de Okapi

Quote

Introducción

En esta entrada explicaremos cómo transformar una memoria de traducción que esté en formato de texto tabulado a tmx utilizando tikal de Okapi Tools (http://okapi.opentag.com/). Con las herramientas de Okapi se pueden realizar infinidad de tareas relacionadas con la traducción y la localización, entre ellas la tarea que nos ocupa.

Recordemos que una memoria de traducción en formato de texto tabulado tiene el siguiente aspecto:

segmento_lengua_A tabulador segmento_lengua_B.

Si la lengua A es inglés y la lengua B es español este mismo segmento en TMX tendría el siguiente aspecto:

tmx

Esta transformación nos permitirá utilizar las memorias de traducción en herramientas de traducción asisitida.

Transformación con Tikal

Si ejecutamos tikal sin ningún parámetro adicioal nos muestra todas sus instrucciones:

tikal1

Si nos fijamos bien (haciendo clic sobre la imagen se ampliará) existe una opción -2tmx que nos servirá para realizar la conversión a este formato. Si miramos bien los parámetros que nos pedirá veremos lo siguiente:

tikal2

Además de indicar la lengua de partida (-sl) y la de llegada (-tl) será muy importante dar el valor adecuado al parámetro -fc que es el parámetro que controla el formato del ficher de entrada. Tenemos que darle un valor de entre la lista dfe valores posibles. Esta lista la podemos obtener escribiendo:

tikal -listconf

Que nos devolverá la lista de configuraciones:

D:\okapi>tikal -listconf
-------------------------------------------------------------------------------
Okapi Tikal - Localization Toolset
Version: 2.0.23
-------------------------------------------------------------------------------
List of all filter configurations available:
 - okf_txml = Wordfast Pro TXML documents
 - okf_txml-fillEmptyTargets = Wordfast Pro TXML documents with empty targets fi
lled on output.
 - okf_itshtml5 = Configuration for standard HTML5 documents.
 - okf_doxygen = Doxygen-commented Text Documents
 - okf_wiki = Text with wiki-style markup
 - okf_mosestext = Default Moses Text configuration.
 - okf_tradosrtf = Configuration for Trados-tagged RTF files - READING ONLY.
 - okf_rainbowkit = Configuration for Rainbow translation kit.
 - okf_rainbowkit-package = Configuration for Rainbow translation kit package.
 - okf_rainbowkit-noprompt = Configuration for Rainbow translation kit (without
prompt).
 - okf_mif = Adobe FrameMaker MIF documents
 - okf_archive = Configuration for archive files
 - okf_transifex = Transifex project with prompt when starting
 - okf_transifex-noPrompt = Transifex project without prompt when starting
 - okf_xini = Configuration for XINI documents from ONTRAM
 - okf_xini-noOutputSegmentation = Configuration for XINI documents from ONTRAM
(fields in the output are not segmented)
 - okf_xliff = Configuration for XML Localisation Interchange File Format (XLIFF
) documents.
 - okf_openxml = Microsoft Office documents (DOCX, XLSX, PPTX).
 - okf_openoffice = OpenOffice.org ODT, ODS, ODP, ODG, OTT, OTS, OTP, OTG docume
nts
 - okf_simplification = Configuration for extracting resources from an XML file.
 Resources and then codes are simplified.
 - okf_simplification-xmlResources = Configuration for extracting resources from
 an XML file. Resources are simplified.
 - okf_simplification-xmlCodes = Configuration for extracting resources from an
XML file. Codes are simplified.
 - okf_properties = Java properties files (Output used \uHHHH escapes)
 - okf_properties-outputNotEscaped = Java properties files (Characters in the ou
tput encoding are not escaped)
 - okf_properties-skypeLang = Skype language properties files (including support
 for HTML codes)
 - okf_properties-html-subfilter = Java Property content processed by an HTML su
bfilter
 - okf_dtd = Configuration for XML DTD documents (entities content)
 - okf_html = HTML or XHTML documents
 - okf_html-wellFormed = XHTML and well-formed HTML documents
 - okf_po = Standard bilingual PO files
 - okf_po-monolingual = Monolingual PO files (msgid is a real ID, not the source
 text).
 - okf_regex = Default Regex configuration.
 - okf_regex-srt = Configuration for SRT (Sub-Rip Text) sub-titles files.
 - okf_regex-textLine = Configuration for text files where each line is a text u
nit
 - okf_regex-textBlock = Configuration for text files where text units are separ
ated by 2 or more line-breaks.
 - okf_regex-macStrings = Configuration for Macintosh .strings files.
 - okf_ts = Configuration for Qt TS files.
 - okf_tmx = Configuration for Translation Memory eXchange (TMX) documents.
 - okf_xml = Configuration for generic XML documents (default ITS rules).
 - okf_xml-resx = Configuration for Microsoft RESX documents (without binary dat
a).
 - okf_xml-MozillaRDF = Configuration for Mozilla RDF documents.
 - okf_xml-JavaProperties = Configuration for Java Properties files in XML.
 - okf_xml-AndroidStrings = Configuration for Android Strings XML documents.
 - okf_xml-WixLocalization = Configuration for WiX (Windows Installer XML) Local
ization files.
 - okf_idml = Adobe InDesign IDML documents
 - okf_json = Configuration for JSON files
 - okf_phpcontent = Default PHP Content configuration.
 - okf_ttx = Configuration for Trados TTX documents.
 - okf_pensieve = Configuration for Pensieve translation memories.
 - okf_vignette = Default Vignette Export/Import Content configuration.
 - okf_vignette-nocdata = Vignette files without CDATA sections.
 - okf_railsyaml = Ruby on Rails YAML files
 - okf_xmlstream = Large XML Documents
 - okf_xmlstream-dita = DITA XML
 - okf_xmlstream-JavaPropertiesHTML = Java Properties XML with Embedded HTML
 - okf_versifiedtxt = Versified Text Documents
 - okf_table = Table-like files such as tab-delimited, CSV, fixed-width columns,
 etc.
 - okf_table_csv = Comma-separated values, optional header with field names.
 - okf_table_catkeys = Haiku CatKeys resource files
 - okf_table_src-tab-trg = 2-column (source + target), tab separated files.
 - okf_table_fwc = Fixed-width columns table padded with white-spaces.
 - okf_table_tsv = Columns, separated by one or more tabs.
 - okf_plaintext = Plain text files.
 - okf_plaintext_trim_trail = Text files; trailing spaces and tabs removed from
extracted lines.
 - okf_plaintext_trim_all = Text files; leading and trailing spaces and tabs rem
oved from extracted lines.
 - okf_plaintext_paragraphs = Text files extracted by paragraphs (separated by 1
 or more empty lines).
 - okf_plaintext_spliced_backslash = Spliced lines filter with the backslash cha
racter (\) used as the splicer.
 - okf_plaintext_spliced_underscore = Spliced lines filter with the underscore c
haracter (_) used as the splicer.
 - okf_plaintext_spliced_custom = Spliced lines filter with a user-defined splic
er.
 - okf_plaintext_regex_lines = Plain Text Filter using regex-based linebreak sea
rch. Extracts by lines.
 - okf_plaintext_regex_paragraphs = Plain Text Filter using regex-based linebrea
k search. Extracts by paragraphs.
 - okf_odf = XML OpenDocument files (e.g. use inside OpenOffice.org documents).

La que nos interesa es:

- okf_table_csv = Comma-separated values, optional header with field names.

Así pues, para realizar la conversión tenemos que escribir (si el fichero a transformar se llama corpus-ONU-eng-spa.txt):

tikal -2tmx corpus-ONU-eng-spa.txt -sl en -tl es -fc okf_table_src-tab-trg

Y el sistema realizará el proceso de conversió y escribirá:

-------------------------------------------------------------------------------
Okapi Tikal - Localization Toolset
Version: 2.0.23
-------------------------------------------------------------------------------
Conversion to TMX
Source language: en
Target language: es
Default input encoding: windows-1252
Filter configuration: okf_table_src-tab-trg
Output: corpus-ONU-eng-spa.txt.tmx
Input: /D:/okapi/corpus-ONU-eng-spa.txt
Done in 3.568s

El fichero transformado se llama corpus-ONU-eng-spa.txt.tmx

Primer contacto con Linux (V): Máquina virtual

Quote

En esta entrada vamos a explicar cómo instalar Linux en una máquina virtual. Vamos a explicarlo para una distribución Xubuntu 12.10, pero la misma explicación es válida para cualquier otra distribución.

Esta opción es buena para la siguiente situación.

Dispongo de un ordenador con cualquier sistema operativo y quiero trabajar eventualmente con Linux manteniendo inalterado el sistema operativo habitual

Suponemos que hemos descargado una imagen de la distribución que queremos instalar y que hemos creado el disco de arranque (si no es así, consultad la siguiente entrada).

Continue reading

Primer contacto con Linux (IV): Instalador de Ubuntu para Windows

Quote

En esta nueva entrada vamos a explicar una opción muy adecuada para aquellas personas que se encuentre en la siguiente situación:

Dispongo de un ordenador con Windows y dispongo de suficiente espacio en disco. Quiero probar Linux más a fondo, pero no quiero realizar una instalación completa con particiones

 

NOTA: no utilices esta opción si tienes Windows 8.

Ubuntu dispone de un instalador para Windows que lo que hace es instalar Ubuntu en el sistema de archivos de Windows. Una vez instalado, si reiniciamos el equipo nos aparecerá una opción para escoger si queremos iniciar el ordenador en Linux o en Windows. Ubuntu se instala en el sistema de archivos de Windows, como cualquier otra aplicación, y no requiere realizar ningún tipo de partición en nuestro disco duro.

Podemos obtener el instalador (denominado Wubi) del siguiente enlace http://www.ubuntu.com/download/desktop/windows-installer.

Continue reading

Primer contacto con Linux (III): Arranque por USB

Quote

En la pasada entrada sobre el primer contacto con Linux aprendimos a crear un DVD de arranque. Con este DVD podemos arrancar el sistema y probar Linux y también podemos realizar la instalación (que explicaremos en una próxima entrada). En la presente entrada explicaremos la solución para probar Linux o instalarlo en aquellos casos que nuestro ordenador no disponga de unidad de DVD (la situación es típica cuando queremos instalar Linux en un NetBook, por ejemplo).

En este caso tenemos que descargar la imagen de Ubuntu/Xubuntu o Linux Mint como se explicó en una entrada anterior.

[lo que explico a continuación es un resumen/traducción de la información que aparece en el siguiente enlace: http://www.ubuntu.com/download/help/create-a-usb-stick-on-windows]

Continue reading

Primer contacto con Linux (II): Creación del DVD de arranque e instalación

Quote

En esta segunda parte de nuestro primer contacto con Linux vamos a aprender a descargar (seguramente ya lo habréis hecho) la imagen del DVD, crear el DVD de arranque e instalación y hacer una primera prueba de Linux sin instalar nada en nuestro sistema.

Lo que expliquemos hoy será útil para el primer caso de los comentados en la primera parte: es decir, dispongo de un ordenador con Windows y quiero probar Linux de manera rápida, sólo para tener una idea de cómo es.

Continue reading

Primer contacto con el sistema operativo Linux

Quote

Durante los próximos días voy a publicar una serie de entradas dedicadas a dar los primeros pasos en la utilización del sistema operativo Linux. Este es un sistema operativo libre que está consiguiendo unos niveles de fiabilidad, seguridad y facilidad de uso excepcionales. Esto unido a que se puede obtener de forma gratuita, hace que sea una opción a tener muy en cuenta como sistema operativo de uso habitual. Atrás quedan los días en que Linux quedaba relegado a gurús de la informática por su dificultad de instalación y uso. Ahora instalar Linux es muy sencillo y su uso es fácil e intuitivo.

Para obtener de manera rápida los conceptos más interesantes sobre Linux y el software libre es muy recomendable la lectura del primer apartado (Presentación) del primer módulo de la asignatura Sistema Operativo GNU/Linux básico de la UOC libre que se puede obtener de aquí en castellano y de aquí en catalán.

Continue reading

Charla virtual

Quote

translationEl próximo jueves 3 de octubre a las 18 horas tendrá lugar la charla Herramientas para la gestión de proyectos de traducción en formato virtual (para los que no hayáis podido asistir a las de Madrid y Barcelona) que se organiza en el marco de la presentación del nuevo Máster de Traducción especializada de los Estudios de Artes y Humanidades de la UOC.

Para inscribirse en la charla, que irá a cargo del director académico Antoni Oliver, hay que escribir un correo a tit@uoc.edu.

Xerrada virtual

Quote

translationEl proper dijous 3 d’octubre a les 18 hores tindrà lloc la xerrada Eines per a la gestió de projectes de traducció en format virtual (pels que no hagueu pogut assistir a les de Madrid i Barcelona) que s’organitza en el marc de la presentació del nou Màster de Traducció especialitzada, dels Estudis d’Arts i Humanitats de la UOC.

Per inscriure’s a la xerrada, que anirà a càrrec del director acadèmic Antoni Oliver, cal escriure un correu a tit@uoc.edu.