Machine translation - la traduzione automatica


Spesso la traduzione automatica viene considerata poco utile in quanto si pensa solo ai servizi di traduzione automatica gratuiti online quali Babelfish o Google translate. Tuttavia la "machine translation" va approfondita sotto diversi aspetti. Chi oggi vuole ad esempio sfruttare la traduzione automatica deve innanzitutto stabilirne gli scopi: vuole tradurre velocemente testi generici (email) scritti in lingua straniera per coglierne grosso modo il contenuto oppure ha bisogno di un sistema che supporti la traduzione di testi tecnici (con successiva correzione da parte di un traduttore)?

TIPI DI MACHINE TRANSLATION
Innanzitutto bisogna sapere che esistono diversi tipi di machine translation, alcuni/pochi gratuiti (open source) quali Moses o Apterium (ma che sono tutt'altro che facili da implementare per chi non ha approfondite conoscenze tecniche). In base al tipo di approccio possiamo distinguere tra
- sistemi basati su regole (rule base machine translation),
- sistemi statistici, ovvero basati su corpora (data drive machine translation, statistical machine translation),
- sistemi ibridi (con una componente statistica e linguistica),
- sistemi il cui addestramento si svolge in modo costante e dinamico (adaptive machine translation, ad es. Lilt e SDL Adaptive MT) oppure
- sistemi neurali che si basano su tecnologie come ad es. intelligenza artificiale e reti neurali (neural machine translation di Google, Systran).

PRE-EDITING, POST-EDITING
In quasi tutti i casi il sistema prevede un intervento per "correggere" il testo; se prima della traduzione (quindi ottimizzazione del testo source) si parla di sistemi con pre-editing, se dopo la traduzione si tratta di  post-editing. Esistono poi sistemi che integrano entrambe le fasi.

PERSONALIZZAZIONE
In ogni caso va considerato il fatto che un sistema, basato su regole o statistico, con pre o post-editing ecc., va addestrato. Ad esempio devono essere creati glossari che contengono la terminologia specifica del cliente oppure raccolti testi originali e traduzioni (grandi quantitą) che serviranno per alimentare il sistema. Questa personalizzazione richiede molto tempo e competenze molto specifiche delle persone coinvolte nel progetto. Va infine ricordato che un sistema, una volta implementato, ha bisogno di una costante manutenzione (valutazione errrori, possibili miglioramenti, aggiornamento glossari/TM o altri dati o regole ecc.).

VANTAGGI
Sicuramente in molti casi (escludendo il settore letterario) una traduzione automatica con successiva correzione (post-editing) conviene piuttosto che una traduzione eseguita senza alcun ausilio informatico (a parte Word). Pił diffcile invece rispondere alla domanda se la traduzione automatica con post-editing conviene rispetto all'uso "massiccio" di strumenti quali memorie di traduzione, glossari ecc. in ambiti tipo CAT tool. Qui bisogna tener conto di diversi aspetti: gli scopi della MT, gli obiettivi di qualitą, la quantitą e qualitą dei testi da tradurre, il materiale disponibili per il training del sistema, la presenza e l'uso di manuali di stili o linguaggi controllati per la lingua di partenza, l'investimento iniziale e i costi di gestione diretti (sistema, postediting) e indiretti (personale).


Esempi

GoogleTranslate (ex-statistico, da poco neurale), parzialmente gratuito, addestrato con i big data: GoogleTranslate
MicrosoftBing, come sopra ma della MS: MicrosoftBing
Sistema di traduzione automatica dell'ONU (statistico) personalizzata con i propri dati: TAPTA4UN
Sistema di traduzione automatica della Wipo (Organizzazione Mondiale per la Proprietą Intellettuale [OMPI]): TAPTA

Altri sistemi, commerciali e non:
Language Cloud (ex BeGlobal)
KantanMT
LanguageStudio (AsiaOnline)
Let's MT
MateCat
Microsoft Translator Hub
Moses
MosesYourself
OpenLogos
Promt
Systran
Synthema Petra


Siti interessanti:
STATMT di Philipp Koehn
TAUS
Raccolta di testi di Hutchins
European Association for machine translation EAMT