Avant dâaborder la question de la traduction automatique, il est primordial de sâinterroger sur la notion de traduction mĂȘme. Comment procĂšde-t-on pour traduire ? Comment dĂ©finir lâobjectif Ă atteindre (Ă savoir une bonne traduction) ? Nous verrons que ces questions sont difficiles et trĂšs dĂ©battues. Il faut enfin comprendre pourquoi la comprĂ©hension dâun Ă©noncĂ©, phĂ©nomĂšne simple et direct pour un ĂȘtre humain, pose en fait dâinfinis problĂšmes aux ordinateurs, malgrĂ© leur puissance de calcul.
Quâest-ce que « traduire » ?
La rĂ©ponse Ă cette question peut sembler Ă©vidente : il sâagit de transposer dans une langue cible un texte donnĂ© dans une langue source. Cependant, on voit rapidement que cette dĂ©finition, si simple soit elle, renvoie en fait Ă un problĂšme dâune infinie complexitĂ©. Quâest-ce que « transposer un texte » ? Comment sâopĂšre le passage de la langue source Ă la langue cible ? Comment trouver des Ă©quivalences dâune langue Ă lâautre ? Ces Ă©quivalences sont-elles Ă trouver au niveau des mots, des expressions ou des phrases ? Et mĂȘme : comment dĂ©terminer quel est le sens dâun texte ? dâun Ă©noncĂ© ? Tout lecteur a-t-il la mĂȘme comprĂ©hension dâun texte donnĂ© ? Et si la rĂ©ponse Ă cette derniĂšre question est nĂ©gative, quelles en sont les consĂ©quences pour le processus de traduction ?
On le voit, la traduction ouvre une multitude de questions de nature linguistique, psychologique, voire philosophique. Pour mieux cerner le problĂšme, il peut ĂȘtre intĂ©ressant de faire un pas de cĂŽtĂ© et de sâinterroger plutĂŽt sur les caractĂ©ristiques dâune « bonne » traduction.
Quâest-ce quâune bonne traduction ?
Disons-le tout net : une des difficultĂ©s de la traduction vient justement du fait quâon ne sait pas dĂ©finir formellement ce quâest une « bonne » traduction. On nâa donc guĂšre progressĂ© en posant la question de cette maniĂšre, mais certains critĂšres peuvent toutefois ĂȘtre mis en avant.
La traduction doit rendre compte le plus fidĂšlement possible du texte dâorigine : elle doit en respecter les grandes caractĂ©ristiques, le ton et le style, mais elle doit aussi respecter le dĂ©tail des idĂ©es et de lâargumentation. Le texte obtenu doit ĂȘtre non seulement parfaitement intelligible dans la langue cible, mais il doit ĂȘtre linguistiquement correct, ce qui implique un travail de reformulation subtil. IdĂ©alement, le lecteur ne devrait pas se rendre compte quâil lit une traduction sâil ne connaĂźt pas lâorigine du texte, ce qui implique aussi de respecter les idiomatismes de la langue cible.
Le traducteur doit comprendre en profondeur le texte source pour le rendre dans la langue cible mais il doit aussi avoir une parfaite connaissance de la langue cible. Généralement, les traducteurs professionnels ne traduisent que vers leur langue maternelle pour avoir une parfaite maßtrise des formules choisies pour transposer les idées exprimées dans le texte source.
Ces caractĂ©ristiques dâune « bonne » traduction ne doivent pas masquer leur grande subjectivitĂ©. Ce qui est une bonne traduction pour un lecteur pourra ĂȘtre considĂ©rĂ© comme Ă©tant dâun niveau mĂ©diocre par un autre : ce genre de situation peut survenir entre un traducteur professionnel et son client si ceux-ci nâont pas lâhabitude de travailler ensemble ou si le traducteur ignore lâusage qui sera fait de son travail.
Les attentes vis-Ă -vis dâune traduction peuvent en effet changer du tout au tout suivant le client, lâĂ©poque, la nature du texte, le contexte et lâusage. On ne traduit pas un texte technique comme un texte littĂ©raire. Un effort de transposition peut devoir ĂȘtre fait si le texte concerne une rĂ©alitĂ© trĂšs Ă©loignĂ©e du lectorat potentiel du texte cible (par exemple si lâon doit rendre en français un texte japonais du XIIe siĂšcle) : le traducteur doit alors choisir entre fidĂ©litĂ© au texte original et paraphrases explicatives permettant une meilleure comprĂ©hension du (con)texte (faits historiques, Ă©lĂ©ments culturels peu connus, etc.). Le ton et le style sont aussi des rĂ©alitĂ©s Ă©minemment subjectives et trĂšs dĂ©pendantes de la langue considĂ©rĂ©e. On le voit, les facteurs de subjectivitĂ© ne manquent pas en traduction.
Certains Ă©cueils en revanche sont bien connus et largement Ă©voquĂ©s par les traducteurs eux-mĂȘmes. Il faut Ă©viter le mot Ă mot, qui donne un rĂ©sultat peu comprĂ©hensible et non idiomatique. Il faut Ă©viter les faux amis (le verbe anglais to accommodate doit se traduire par un verbe signifiant « loger » en français, mais en aucun cas par « accommoder », etc.) ; il faut aussi Ă©viter les calques syntaxiques qui aboutissent Ă des contresens. Ă lâinverse, il est conseillĂ© aux traducteurs de prendre connaissance de la totalitĂ© dâun texte pour, justement, Ă©viter les contresens locaux. La connaissance du client, du contexte et de lâusage qui sera fait du texte traduit aide bien Ă©videmment Ă ajuster le travail de traduction Ă lâobjectif visĂ©.
La section prĂ©cĂ©dente (« Quâest-ce que âtraduireâ ? ») lâa implicitement Ă©voquĂ© : la traduction est un processus complexe qui met en jeu des facultĂ©s cognitives et langagiĂšres avancĂ©es. Le traducteur doit dĂ©velopper des mĂ©canismes de comprĂ©hension et de reformulation remarquables, et ce en prenant en compte deux langues diffĂ©rentes, qui nâont pas les mĂȘmes contraintes.
Ce type de facultĂ© est largement Ă©tranger au monde des machines et des ordinateurs. Les systĂšmes artificiels dĂ©veloppĂ©s depuis les dĂ©buts de lâinformatique sont Ă peine balbutiants de ce point de vue, et bien Ă©videmment trĂšs loin des capacitĂ©s des humains en matiĂšre de comprĂ©hension et de reformulation. Reformuler une phrase est en effet un problĂšme difficile qui implique dâune part des connaissances approfondies sur la langue elle-mĂȘme, et dâautre part des facultĂ©s qui ont trait Ă la recherche dâanalogies et dâĂ©quivalences entre concepts, ce qui dĂ©passe le simple niveau linguistique.
Les concepteurs de systĂšmes de traduction automatique ont conscience de ces limites. Peu de chercheurs ont abordĂ© la question de la traduction de textes littĂ©raires : il y a un assez grand consensus sur le fait que la traduction automatique est une tĂąche difficile, qui doit ĂȘtre appliquĂ©e Ă des textes relativement communs (par exemple Ă des textes dâactualitĂ©s) et non Ă des Ćuvres littĂ©raires. Les domaines techniques posent aussi des problĂšmes propres dans la mesure oĂč ils emploient un vocabulaire spĂ©cialisĂ©, donc trĂšs diffĂ©rent du vocabulaire commun.
En consĂ©quence, la qualitĂ© des traductions rĂ©alisĂ©es automatiquement est une question largement dĂ©battue. Toutes les Ă©quipes de recherche visent Ă se rapprocher de la qualitĂ© des traductions humaines. En mĂȘme temps, tout le monde sait que cet objectif est trĂšs ambitieux quand on a affaire Ă des textes « tout venant », câest-Ă -dire pouvant potentiellement aborder nâimporte quel domaine. Cet objectif est aussi difficile Ă dĂ©finir, dans la mesure oĂč la qualitĂ© dâune traduction dĂ©pend Ă©troitement de la nature et de la difficultĂ© du texte Ă traduire, et surtout de la langue source et de la langue cible.
Pendant longtemps, les outils de traduction fonctionnaient par assemblage de fragments de textes dans la langue cible, trouvĂ©s dans des corpus bilingues de rĂ©fĂ©rence (voir le chapitre 8). Lâapproche Ă©tait relativement locale, ce qui posait dâĂ©vidents problĂšmes de pertinence et cohĂ©rence. Le niveau textuel (la tonalitĂ© et le style du texte Ă traduire) nâĂ©tait quasiment jamais pris en compte. Plus rĂ©cemment, en particulier depuis 2016, ce sont les approches par « apprentissage profond » qui ont pris le relais, dans lâindustrie mais aussi dans le monde de la recherche. Ces mĂ©thodes rĂ©centes abordent la question de la traduction directement au niveau de la phrase vue comme une entitĂ© globale, ce qui Ă©vite certains Ă©cueils des mĂ©thodes statistiques prĂ©cĂ©dentes. Ce nâest pas leur seul avantage, mais cette caractĂ©ristique explique quand mĂȘme en grande partie leur succĂšs.
Il faut enfin prendre conscience des trĂšs grandes difficultĂ©s que pose lâanalyse des langues par ordinateur. Le nombre de mots Ă considĂ©rer, leurs variations, le nombre de sens diffĂ©rents pour chaque mot, le fait que certains mots nâont pas de sens en eux-mĂȘmes mais font partie de mots composĂ©s (« pomme de terre ») ou dâexpressions idiomatiques (« jouer cartes sur table », « pleuvoir Ă verse »), tout cela rend le problĂšme infiniment complexe. Il existe enfin de nombreuses langues avec une morphologie complexe, des cas (nominatif, gĂ©nitif, etc.) et un ordre des mots relativement libre. Pour ces langues, si on ne dispose pas dâanalyseurs puissants pouvant identifier et analyser par exemple la fonction syntaxique des mots dans la langue source, les performances seront obligatoirement « moyennes » car cette information est nĂ©cessaire pour traduire correctement. La section suivante vise Ă illustrer certaines de ces difficultĂ©s.
Pourquoi lâanalyse de la langue par ordinateur est-elle difficile ?
En dehors du manque dâinformation sur lâutilisateur, le contexte ou le style de texte considĂ©rĂ© (ce qui a pour consĂ©quence que la traduction automatique fonctionne « en aveugle » en quelque sorte, par rapport Ă un traducteur professionnel), une autre difficultĂ© tient Ă la tĂąche elle-mĂȘme, qui implique lâanalyse des langues, improprement appelĂ©es « naturelles » par opposition aux « langages formels » (comme les langages informatiques).
Les linguistes et les informaticiens sâintĂ©ressent depuis des annĂ©es au « traitement automatique de la langue » (TAL) ou Ă la « linguistique computationnelle » pour reprendre le terme copiĂ© de lâanglais (computational linguistics). Le TAL pose de trĂšs grandes difficultĂ©s parce que lâordinateur nâa a priori aucune connaissance sur la langue. Il faut donc lui indiquer ce quâest un mot, une phrase, etc. Jusque-lĂ , les choses peuvent sembler relativement simples, mĂȘme si ce nâest pas tout Ă fait vrai (ainsi, on considĂšre « aujourdâhui » comme un mot bien quâil comprenne une apostrophe ; et il faut connaĂźtre le contexte pour pouvoir dĂ©terminer si « rendez-vous » forme un ou deux mots). Les langues naturelles posent en fait une redoutable difficultĂ© : chaque mot, chaque expression et chaque phrase peut ĂȘtre ambiguĂ«.
Prenons un exemple : « Lâavocat a livrĂ© une plaidoirie au vitriol. » Chaque mot introduit de nombreuses difficultĂ©s pour un ordinateur. Pour un humain, il est par exemple Ă©vident que « avocat » dĂ©signe ici un juriste, « livrĂ© » correspond au verbe « livrer » et que « au vitriol » est une expression figĂ©e. Il nâen va pas de mĂȘme pour un ordinateur : « avocat » peut dĂ©signer un fruit ; « livrĂ© » peut facilement ĂȘtre identifiĂ© comme un verbe, mais le sens est ici largement mĂ©taphorique : il nây a pas de livraison Ă proprement parler dans la phrase. Les complĂ©ments prĂ©positionnels posent eux aussi des problĂšmes importants : comment savoir que « au vitriol » est rattachĂ© à « plaidoirie » plutĂŽt quâau verbe « livrĂ© » ? Si on avait eu affaire Ă la phrase « lâavocat a livrĂ© une plaidoirie au palais de justice », le complĂ©ment « au palais de justice » aurait dĂ» ĂȘtre rattachĂ© au verbe et non au nom « plaidoirie », alors que la structure des deux phrases semble tout Ă fait comparable de prime abord.
On pourrait objecter Ă cela que « au vitriol » est une expression figĂ©e qui doit ĂȘtre enregistrĂ©e comme un tout (câest-Ă -dire comme une entrĂ©e Ă part entiĂšre) dans le dictionnaire. Cela est probablement vrai mais on ne fait ainsi que repousser le problĂšme dans la mesure oĂč cette stratĂ©gie revient Ă augmenter le nombre de mots et dâexpressions, ce qui a pour consĂ©quence dâintroduire de nouvelles ambiguĂŻtĂ©s, et finalement de rendre le problĂšme sans fin.
Un dictionnaire du français courant contient en gĂ©nĂ©ral entre 50 000 et 100 000 mots (hors noms propres). Quand on considĂšre toutes les formes que lâon trouve effectivement dans les textes (un verbe comme « livrer » correspond en fait Ă plusieurs dizaines de formes conjuguĂ©es : « livrions », « livraient », « livrera », etc.), il est admis quâil faut multiplier ce chiffre par huit environ en français. Ă cela, il faut ajouter les noms propres (on trouve des dictionnaires de plusieurs millions de noms propres, la plupart Ă©tant ambigus avec des noms communs, comme « Pierre » qui peut ĂȘtre confondu avec une « pierre », mĂȘme si lâusage des majuscules limite le problĂšme en français) et les dictionnaires de mots composĂ©s (qui peuvent aussi inclure plusieurs dizaines de milliers dâitems). Enfin, chaque domaine technique est lui-mĂȘme susceptible dâinclure de nombreux termes spĂ©cifiques, souvent ambigus du point de vue formel avec dâautres mots de la langue.
Les problĂšmes dâanalyse syntaxique se greffent lĂ -dessus (dans notre exemple ci-dessus, faut-il rattacher « au vitriol » à « plaidoirie » ou au verbe « a livrĂ© » ?) et lâon voit quâon a trĂšs rapidement affaire Ă un problĂšme dâexplosion combinatoire. La plupart des problĂšmes peuvent ĂȘtre rĂ©solus facilement, de maniĂšre locale (par exemple avec des heuristiques du type « comme plaidoirie apparaĂźt dans le contexte du mot avocat, ce dernier dĂ©signe probablement lâhomme de loi et non le fruit ») mais dâautres problĂšmes nĂ©cessitent des connaissances plus complexes, difficiles Ă concevoir de maniĂšre exhaustive quand on a affaire Ă des millions dâitems.
Ce qui peut sembler surprenant, câest que tout cela ne pose aucun problĂšme de comprĂ©hension Ă un humain, qui ne voit mĂȘme pas quâil y a ambiguĂŻtĂ© (au sens oĂč il faut choisir la bonne Ă©tiquette, le bon sens, le bon rattachement de chaque mot pour comprendre la phrase). De fait, cette dimension de la traduction automatique, et plus gĂ©nĂ©ralement cette difficultĂ© dans lâanalyse des langues humaines ont longtemps Ă©chappĂ© aux concepteurs de systĂšmes automatiques tant la comprĂ©hension est un phĂ©nomĂšne naturel, direct et inconscient pour un humain. Il est dâailleurs trĂšs improbable que le cerveau analyse toutes les possibilitĂ©s pour chaque mot afin dâobtenir une reprĂ©sentation sĂ©mantique pour une phrase donnĂ©e : grĂące au contexte, le cerveau accĂšde probablement directement Ă la bonne interprĂ©tation, sans mĂȘme considĂ©rer les analyses alternatives. Ă ce sujet, il a parfois Ă©tĂ© proposĂ© un parallĂšle avec le cube d...