Introducció
Continuant amb el tema iniciat en l’entrada anterior, de la conversió de memories de traducció en format text separat per tabuladors, en aquesta entrada explicarem la manera de fer-ho amb l’eina TMX Maker. Aquesta eina es distribueix com a part del LF-Aligner (http://sourceforge.net/projects/aligner/).
Instal·lació del TMX Maker
De fet no cal instal·lar-la. Un cop descarregat i descomprimit l’arxiu zip trobareu el TMX Maker en la carpeta other tools.
Execució del TMX Maker
L’aplicació es pot executar fent-hi doble clic. S’obrirà una pantalla de Símbolo de sistema o Terminal i haurem d’arrossegar allà l’arxiu que volem transformar. MOLT IMPORTANT: l’arxiu de corpus en text tabulat ha d’estar en codificació Unicode UTF-8. Si no ho està, caldrà transformar-lo abans a aquesta codificació.
Un cop arrossegar l’arxiu i fent Enter s’inicia un diàleg que reproduïm aquí i que ens permet seleccionar les opcions de transformació:
OS detected: Windows Drag and drop the input file (tab delimited txt in UTF-8 encoding, or xls) here and press enter. (Vista users: sorry, Microsoft left you out in the cold. See readme; type [scr]/ foldername/filename to run the script on files in the aligner folder.) D:\esborrar\tabtxt2tmx\corpus-ONU-eng-spa-utf8.txt ------------------------------------------------- Specify the path and name of the output file, or just press enter to use the sam e path and name as your input file. Default: D:\esborrar\tabtxt2tmx/corpus-ONU-eng-spa-utf8.tmx ------------------------------------------------- Number of languages? This will usually be 2. (Default: 2) Type the language code of language 1 as used in TMX files by your CAT tool, (usu ally EN-GB, EN-US etc.) If in doubt, export a TM into TMX with the CAT tool you will be using and check the codes it uses. Alternatively, you can take a stab in the dark and hope for the best. (Default: EN-GB) en Type the language code of language 2. (Default: HU) es ------------------------------------------------- Press enter to use the autodetected date and time, or specify your own date and time to be recorded in the TMX. Use the format yyyymmddThhmmssZ, capital T and Z included. See details in readme. Autodetected default: 20131210T153436Z ------------------------------------------------- Type the creator name you wish to be recorded in the TMX. Do not use accented le tters or other special characters. (Default: LF TMX maker 3.0) ------------------------------------------------- You can add a note to your TMX. Your options are: 1) Add the contents of the last column of the txt as a note. This is the default , just press enter to apply. This allows you to use accented characters or assig n different notes to the various lines/segments in your TM - very useful e.g. if the content comes from several different documents. 2) Type the text you wish to add as note. (Accented letters and other special ch aracters may get corrupted.) 3) Create the TMX without a note. Type "none" to apply. leave empty/add your text/type "none": none D:\esborrar\tabtxt2tmx/corpus-ONU-eng-spa-utf8.tmx created ------------------------------------------------- 7129 TUs have been written to the TMX. 7 segments were skipped (7 of them due to being half-empty). Press Enter to quit.
Ahora ya tendremos nuestro corpus en formato TMX.