CAT a situácia v open source softwaru

obecna.png Slovíčko CAT často nájdete na stránkach agentúr či prekladateľov. Termín Computer Aided Translation označuje softvér, ktorý prekladateľovi pomáha, ale neprekladá zaňho.  

Uloží páry viet - zdrojový a preložený text, tzv. segmenty, do prekladovej pamäti (TM - Translation Memory) a pri prekladaní, ak sa nejaká iná veta podobá na tú, ktorá je už uložená v TM, o tom softvér inteligentne informuje užívateľa a ponúkne mu voľbu z databázy takýchto spárovaných viet. Prekladateľ tak nemusí zbytočne písmenkovať.

Segmenty sa dajú pravdaže ukladať aj podľa užívateľských kritérií, ale všeobecne platí, že segmenty sú väčšinou celé vety.

CAT nástroje v žiadnom prípade nepredstavujú strojový preklad (automatický preklad celého textu do iného jazyka), hoci s niektorými aplikáciami typu CAT (napr. Wordfast) je možné realizovať strojový preklad pomocou prekladovej pamäti aj v súčinnosti so softvérom pre strojový preklad. CAT a strojový preklad sú však terminologicky dve rozdielne veci.

Keďže CAT má aj svoju terminológiu, skôr ako začnete prekladať, s touto oblasťou je potrebné sa oboznámiť. Uvedieme teda aspoň tie najzákladnejšie nosné piliere CAT softvérov, a to:

  1. vytvárame/používame prekladovú pamäť, ktorá pozostáva z originálu a prekladu (originál i preklad sa do takejto pamäti ukladajú v podobe párov viet - segmentov);
  2. CAT softvér hľadá podobné (fuzzy) i presné (exact) reťazce slov v TM a ponúkne ich prekladateľovi, ktorý ich nemusí opakovane písať.

Dnes existujú robustné komerčné riešenia CAT ako Trados, ale aj minimalistické ako Wordfast či MetaTexis (žiaľ, tiež komerčné), ktoré sa inštalujú ako makro do textového editora (MS Word). Čo sa týka Linuxu, niektoré makrá pôjdu pod MS Word vo Wine (Wordfast, MetaTexis). Z iných "free" CAT riešení môžeme menovať Open Source OmegaT, EsperantiloTM, Java program Frankenstein atď. Všetky sú však v ešte iba v začínajúcich vodách.

Silná viazanosť na MS Word je príčinou, prečo OpenOffice.org v CAT oblasti stojí tak trochu mimo; preň však už dnes existuje obdobné riešenie takmer celkom na štýl Wordfast - Anaphraseus, čo je extenzia, pomocou ktorej budeme môcť prekladať v OOo.

Anaphraseus: CAT v OpenOffice.org

Anaphraseus je pod licenciou GNU GPL. Keďže ide o extenziu, v OpenOffice.org ju inštalujete z menu Nástroje | Správca rozšírenia, kde kliknete na tlačidlo Pridať. Samozrejme za predpokladu, že ste si túto extenziu už stiahli z webu a v nejakom adresári rozbalili (ZIP súbor).

Inštalácia extenzieInštalácia extenzie

Kliknutím na tlačidlo Nástroje | Správca rozšírenia | Pridať vyberiete adresár s extenziou Anaphraseus - kliknete na súbor s príponou OXT, ktorý je iba jeden.

Anaphraseus nie je závislý od nijakej platformy. Bude fungovať vo Windows, v Linuxe, FreeBSD - všade tam, kde je možné používať OpenOffice.org.

Súhlas s licenciouSúhlas s licenciou

Po vybratí adresára a súboru s príponou OXT vás uvíta okno s informáciou o licencii a posunutím sa na spodok na koniec textu (Scroll Down) sa aktivuje tlačidlo Accept, na ktoré kliknete.

Inštalácia je hotová. Po nej však musíte OpenOffice.org reštartovať, aby sa zmeny do jeho prostredia načítali. Keď OOo znovu nabehne, uvidíte nový panel s ikonami extenzie Anaphraseus.

Filozofia CAT softvérov stojí vo všeobecnosti na samostatnom území. Pokiaľ bol niekto zvyknutý na Wordfast, ľahko pochopí, ako sa s extenziou Anaphraseus pracuje. Ak však niekto začína prvýkrát, musí sa s problematikou oboznámiť, aby rozumel terminológii, ale aj spôsobu, ako CAT softvér funguje v detailoch, z čoho mnoho platí všeobecne i mimo dosahu na konkrétny textový editor či CAT softvér.

Treba zopakovať, že Anaphraseus ako každý softvér v kategórii CAT za vás neprekladá text, ale ukladá segmenty, teda páry viet - originál spolu s prekladom. Softvér pri ďalšom preklade skenuje prekladovú pamäť a ponúka riešenia. Ak teda prekladáte vetu, ktorá je identická/podobná tej, ktorú ste už raz preložili, dostanete ponuku, ktorá sa zobrazí v sivom poli (sivá farba sa zmení), kde píšete preklad textu - softvér ju napíše za vás.

PonukaPonuka

Sivá farba v dolnom poli (s anglickým textom) sa zmení na zelenú, keď text je ponukou z prekladovej pamäti.

Každý CAT softvér má možnosť nastaviť "prah ostrosti" ("Fuzzy Threshold") pre odchytávanie buď presných (exact match), podobných, alebo iba z časti blízkych slovných reťazcov z prekladovej pamäti. Termínov ako "fuzzy" a pod. je pravdaže viac a treba im rozumieť. Označujú operácie, ktoré sú nie vždy závislé od konkrétneho softvéru a ktoré platia ujednotene pre celú oblasť CAT.

Prekladáme pomocou extenzie Anaphraseus

Prekladové pamäte majú rôzne formáty a Anaphraseus (aj Wordfast) vychádza z princípu, že textový formát bude vždy prístupný a ľahko využiteľný každým užívateľom. Anaphraseus dokáže pracovať s prekladovými pamäťami vytvorenými ako TXT súbory vo Wordfaste, čo znamená veľmi veľa, pretože nebudete musieť nič konvertovať.

Panel s ikonami Anaphraseus, celkom vpravo Setup (Nastavenie)Panel s ikonami Anaphraseus, celkom vpravo Setup (Nastavenie)

Po reštartovaní OOo uvidíte nový panel s ikonami Anaphraseus, kde vyberiete tú celkom vpravo pre Setup (Nastavenie).

V CAT oblasti sa ďalej používa TMX (Translation Memory eXchange) formát na báze XML, pomocou ktorého sa prekladové pamäte môžu využiť v každom CAT softvéri v prípade, že nejaký má vlastný formát pre TM. Ako príklad uvedieme, že v nejakom CAT programe exportujete prekladovú pamäť do TMX formátu a potom ju Acceptnačítate v prostredí Anaphraseus, ktorý formát TMX pravdaže tiež podporuje.

Vytvárame prekladovú pamäť

Pokiaľ začínate od štartovacej čiary a nemáte žiadnu prekladovú pamäť (TM), musíte si ju vytvoriť. V menu Setup vyberiete New TM a zadáte TMX kódy, ktoré pravdaže používajú aj iné CAT softvéry.

Vytvorenie novej prekladovej pamätiVytvorenie novej prekladovej pamäti

Pre vytvorenie novej prekladovej pamäti kliknite na Anaphraseus | Setup, vyberte New TM a potom zadajte TMX kódy pre zdrojový a cieľový jazyk. "Select TM" použijete pre už existujúcu prekladovú pamäť.

Jazykové kódy slúžia pre zdieľanie prekladovej pamätiJazykové kódy slúžia pre zdieľanie prekladovej pamäti

TMX ako typ databázy je štandard a jazykové kódy slúžia pre zdieľanie prekladovej pamäti v iných CAT softvéroch, ktoré dokážu s TMX databázou pracovať.

Pre češtinu to bude napr. kód CS-01 ako zdrojový text, teda ten, z ktorého budete prekladať. Potom uvediete cieľový - t. j. ten, do ktorého idete prekladať, napr. EN-US. Pokiaľ vyberiete iba jeden typ angličtiny, určite sa nič nestane, ak budete prekladať raz v americkej a raz v britskej angličtine. Ak však neskôr mienite tieto dva jazyky diferencovať, tak to urobte už teraz. Po navolení jazykových kódov vás Anaphraseus vyzve, či pre novovytvorený TM chcete používať Unicode - odpovedzte kladne, prekladová pamäť totiž môže mať problémy s diakritikou. Napokon sa zobrazí okno pre uloženie slovníka na pevný disk.

Kód jazykaKód jazyka

Prekladových pamätí pre preklad z češtiny do angličtiny i naopak môže byť viac (napr. czech2eng.txt, czech-biblia-eng.txt, czech-strojarina-eng.txt atď.), ale pracovať budete môcť iba s jednou; pre opačnú orientáciu je nutné vytvoriť ďalšiu prekladovú pamäť (eng2czech.txt), ktorú si pomenujete podľa želania.

Začíname prekladať

Musíme si najprv otvoriť text - teda zdrojový súbor; potom na paneli Anaphraseus klikneme na ikonu úplne vľavo (Translate), alebo aplikujeme klávesy Alt+šípka Down (v menu Anaphraseus treba aktivovať klávesové skratky - Activate Keyboard Shortcuts). Keďže OpenOffice.org otvorí aj formáty MS Word, môžete s nimi pracovať plnohodnotne a aj ich takto odovzdať zákazníkovi.

Začíname prekladaťZačíname prekladať

Od tejto chvíle sa každý preklad uloží do prekladovej pamäti spolu s originálom a Anaphraseus v nej bude pre vás skenovať podobné/presné textové reťazce, ktoré ponúkne v dolnom poli, kde prekladáme (v sivej farbe). Ak sa podobný text už nachádza v TM, softvér ho nám tam zobrazí, ale dolné políčko zmení farbu. Text ponúknutý z TM môžeme editovať a po ukončení segmentu znovu klikneme na ikonu Translate alebo aplikujeme klávesy Alt+šípka Down.

Po ukončení prekladu alebo jeho časti vznikne pre oči bežného užívateľa pomerne zvláštny dokument so všelijakými značkami, ktoré sú však pre CAT softvér potrebné. Takto "označkovaný" dokument obsahuje vlastne páry viet, ktoré prekladateľ môže editovať i neskôr s tou výhodou, že vidí aj originál. "Nevyčistený" dokument v CAT programe Anaphraseus je dokonca kompatibilný s Wordfastom, čo znamená, že ak prekladáte v práci v OOo, text si môžete priniesť domov a pokračovať (kdekoľvek v texte kliknúť na Translate) v ňom vo Wordfaste, alebo naopak. Wordfast sa totiž ťažšie prenáša na iné PC - treba ho preregistrovať.

Vyčistenie spárovaných vietVyčistenie spárovaných viet

Musíme sa konfrontovať s terminológiou - z obrázku každý pochopí, čo sa v CAT softvéroch myslí pod termínom "Clean up" - ide o vyčistenie spárovaných viet (originál - preklad) v dokumente tak, aby sme získali "čistý" dokument iba v jednom, v našom prípade cieľovom jazyku.

Páry viet obsiahnuté v dokumente sú totiž užitočné iba pre kontrolu či ďalšiu editáciu prekladu, ktorou sa prekladová pamäť aktualizuje. Keď prekladateľ prešiel aj touto fázou, prácu môže odovzdať zákazníkovi. Preklad vyčistí kliknutím na ikonu Clean Up (Alt+Q), čím vznikne dokument s cieľovým textom, teda prekladom, ktorého originál ostane uložený v prekladovej pamäti (aj s prekladom).

Záver

Hoci cena Wordfastu sa zdvihla až na 250 Euro, Anaphraseus je celkom zadarmo a v mnohých ohľadoch sa vyrovná aj profesionálnym CAT softvérom. Je to vynikajúci a plne využiteľný pomocník, len jednoduchší a stále ešte v beta verzii. Nebudete mať všelijaké funkcie ako Pandorinu skrinku či iné, ktorých pochopenie i nastavovanie niekedy zaberie viac času ako samotné prekladanie. Budete však môcť zrealizovať profesionálnu prekladateľskú prácu. OpenOffice.org sa tak stáva nielen plnohodnotným prekladateľským nástrojom, ale aj hviezdičkou na ceste k slobode, pretože ešte stále existujú neprajníci, ktorí z informácií tohto typu nikdy nebudú radi.

(Jako ve škole) Průměr: 1,50 | Hodnotilo: 16
 

Komentáře

user avatar PeL
Odpovědět
CAT a situácia v open source softwaru
27. 10. 2008, 12:47:53
Zajimavy clanek.
user avatar Standa
Odpovědět
CAT a situácia v open source softwaru
17. 11. 2008, 23:36:49
Konecne CAT pro OpenOffice. Dokumenty OO dokazal doposud prekladat pouze Trados od verze 8.x.x; rozsireni samotne sady OO vsak doposud neexistovalo.
Bravo!
user avatar Petr
Odpovědět
CAT a situácia v open source softwaru
6. 01. 2010, 22:03:29
nesouhlasím zcela s předchozím komentářem Open language tools to umí a uměly také i když jde o samostatný program

Přidat názor

 

Nejsou podporovány žádné značky, komentáře jsou jen čistě textové. Více o diskuzích najdete v nápovědě. Diskuzi můžete sledovat pomocí RSS kanálu.

 
Juraj Šípoš

Juraj Šípoš

 
 
 
woo jaw demo hz