Babel 2.0
eBook - ePub

Babel 2.0

OĂč va la traduction automatique ?

  1. 224 pages
  2. French
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

Babel 2.0

OĂč va la traduction automatique ?

DĂ©tails du livre
Aperçu du livre
Table des matiĂšres
Citations

À propos de ce livre

La question de la traduction automatique s'est posĂ©e dĂšs la naissance de l'informatique. Elle semblait alors accessible, mais quiconque, aujourd'hui, utilise les traducteurs automatiques disponibles sur Internet sait que, malgrĂ© les remarquables progrĂšs effectuĂ©s, on est encore loin d'une traduction toujours fidĂšle. La complexitĂ© du langage naturel et ses ambiguĂŻtĂ©s sont bien faites pour dĂ©router les algorithmes pleinement rationnels de nos ordinateurs. Les «rĂ©seaux de neurones» qui pratiquent l'«apprentissage profond» sont la derniĂšre en date des multiples stratĂ©gies dĂ©ployĂ©es pour parler avec la machine
 et s'en faire comprendre. Thierry Poibeau est directeur de recherche au CNRS. Il est spĂ©cialiste du traitement automatique des langues, un domaine de recherche Ă  la frontiĂšre de la linguistique et de l'informatique.

Foire aux questions

Il vous suffit de vous rendre dans la section compte dans paramĂštres et de cliquer sur « RĂ©silier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez rĂ©siliĂ© votre abonnement, il restera actif pour le reste de la pĂ©riode pour laquelle vous avez payĂ©. DĂ©couvrez-en plus ici.
Pour le moment, tous nos livres en format ePub adaptĂ©s aux mobiles peuvent ĂȘtre tĂ©lĂ©chargĂ©s via l’application. La plupart de nos PDF sont Ă©galement disponibles en tĂ©lĂ©chargement et les autres seront tĂ©lĂ©chargeables trĂšs prochainement. DĂ©couvrez-en plus ici.
Les deux abonnements vous donnent un accĂšs complet Ă  la bibliothĂšque et Ă  toutes les fonctionnalitĂ©s de Perlego. Les seules diffĂ©rences sont les tarifs ainsi que la pĂ©riode d’abonnement : avec l’abonnement annuel, vous Ă©conomiserez environ 30 % par rapport Ă  12 mois d’abonnement mensuel.
Nous sommes un service d’abonnement Ă  des ouvrages universitaires en ligne, oĂč vous pouvez accĂ©der Ă  toute une bibliothĂšque pour un prix infĂ©rieur Ă  celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! DĂ©couvrez-en plus ici.
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte Ă  haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accĂ©lĂ©rer ou le ralentir. DĂ©couvrez-en plus ici.
Oui, vous pouvez accĂ©der Ă  Babel 2.0 par Thierry Poibeau en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Computer Science et Artificial Intelligence (AI) & Semantics. Nous disposons de plus d’un million d’ouvrages Ă  dĂ©couvrir dans notre catalogue.

Informations

Éditeur
Odile Jacob
Année
2019
ISBN
9782738148506

CHAPITRE 1

Préliminaires :
autour de la traduction et du traitement automatique des langues


Avant d’aborder la question de la traduction automatique, il est primordial de s’interroger sur la notion de traduction mĂȘme. Comment procĂšde-t-on pour traduire ? Comment dĂ©finir l’objectif Ă  atteindre (Ă  savoir une bonne traduction) ? Nous verrons que ces questions sont difficiles et trĂšs dĂ©battues. Il faut enfin comprendre pourquoi la comprĂ©hension d’un Ă©noncĂ©, phĂ©nomĂšne simple et direct pour un ĂȘtre humain, pose en fait d’infinis problĂšmes aux ordinateurs, malgrĂ© leur puissance de calcul.

Qu’est-ce que « traduire » ?

La rĂ©ponse Ă  cette question peut sembler Ă©vidente : il s’agit de transposer dans une langue cible un texte donnĂ© dans une langue source. Cependant, on voit rapidement que cette dĂ©finition, si simple soit elle, renvoie en fait Ă  un problĂšme d’une infinie complexitĂ©. Qu’est-ce que « transposer un texte » ? Comment s’opĂšre le passage de la langue source Ă  la langue cible ? Comment trouver des Ă©quivalences d’une langue Ă  l’autre ? Ces Ă©quivalences sont-elles Ă  trouver au niveau des mots, des expressions ou des phrases ? Et mĂȘme : comment dĂ©terminer quel est le sens d’un texte ? d’un Ă©noncĂ© ? Tout lecteur a-t-il la mĂȘme comprĂ©hension d’un texte donnĂ© ? Et si la rĂ©ponse Ă  cette derniĂšre question est nĂ©gative, quelles en sont les consĂ©quences pour le processus de traduction ?
On le voit, la traduction ouvre une multitude de questions de nature linguistique, psychologique, voire philosophique. Pour mieux cerner le problĂšme, il peut ĂȘtre intĂ©ressant de faire un pas de cĂŽtĂ© et de s’interroger plutĂŽt sur les caractĂ©ristiques d’une « bonne » traduction.

Qu’est-ce qu’une bonne traduction ?

Disons-le tout net : une des difficultĂ©s de la traduction vient justement du fait qu’on ne sait pas dĂ©finir formellement ce qu’est une « bonne » traduction. On n’a donc guĂšre progressĂ© en posant la question de cette maniĂšre, mais certains critĂšres peuvent toutefois ĂȘtre mis en avant.
La traduction doit rendre compte le plus fidĂšlement possible du texte d’origine : elle doit en respecter les grandes caractĂ©ristiques, le ton et le style, mais elle doit aussi respecter le dĂ©tail des idĂ©es et de l’argumentation. Le texte obtenu doit ĂȘtre non seulement parfaitement intelligible dans la langue cible, mais il doit ĂȘtre linguistiquement correct, ce qui implique un travail de reformulation subtil. IdĂ©alement, le lecteur ne devrait pas se rendre compte qu’il lit une traduction s’il ne connaĂźt pas l’origine du texte, ce qui implique aussi de respecter les idiomatismes de la langue cible.
Le traducteur doit comprendre en profondeur le texte source pour le rendre dans la langue cible mais il doit aussi avoir une parfaite connaissance de la langue cible. Généralement, les traducteurs professionnels ne traduisent que vers leur langue maternelle pour avoir une parfaite maßtrise des formules choisies pour transposer les idées exprimées dans le texte source.
Ces caractĂ©ristiques d’une « bonne » traduction ne doivent pas masquer leur grande subjectivitĂ©. Ce qui est une bonne traduction pour un lecteur pourra ĂȘtre considĂ©rĂ© comme Ă©tant d’un niveau mĂ©diocre par un autre : ce genre de situation peut survenir entre un traducteur professionnel et son client si ceux-ci n’ont pas l’habitude de travailler ensemble ou si le traducteur ignore l’usage qui sera fait de son travail.
Les attentes vis-Ă -vis d’une traduction peuvent en effet changer du tout au tout suivant le client, l’époque, la nature du texte, le contexte et l’usage. On ne traduit pas un texte technique comme un texte littĂ©raire. Un effort de transposition peut devoir ĂȘtre fait si le texte concerne une rĂ©alitĂ© trĂšs Ă©loignĂ©e du lectorat potentiel du texte cible (par exemple si l’on doit rendre en français un texte japonais du XIIe siĂšcle) : le traducteur doit alors choisir entre fidĂ©litĂ© au texte original et paraphrases explicatives permettant une meilleure comprĂ©hension du (con)texte (faits historiques, Ă©lĂ©ments culturels peu connus, etc.). Le ton et le style sont aussi des rĂ©alitĂ©s Ă©minemment subjectives et trĂšs dĂ©pendantes de la langue considĂ©rĂ©e. On le voit, les facteurs de subjectivitĂ© ne manquent pas en traduction.
Certains Ă©cueils en revanche sont bien connus et largement Ă©voquĂ©s par les traducteurs eux-mĂȘmes. Il faut Ă©viter le mot Ă  mot, qui donne un rĂ©sultat peu comprĂ©hensible et non idiomatique. Il faut Ă©viter les faux amis (le verbe anglais to accommodate doit se traduire par un verbe signifiant « loger » en français, mais en aucun cas par « accommoder », etc.) ; il faut aussi Ă©viter les calques syntaxiques qui aboutissent Ă  des contresens. À l’inverse, il est conseillĂ© aux traducteurs de prendre connaissance de la totalitĂ© d’un texte pour, justement, Ă©viter les contresens locaux. La connaissance du client, du contexte et de l’usage qui sera fait du texte traduit aide bien Ă©videmment Ă  ajuster le travail de traduction Ă  l’objectif visĂ©.
La section prĂ©cĂ©dente (« Qu’est-ce que “traduire” ? ») l’a implicitement Ă©voquĂ© : la traduction est un processus complexe qui met en jeu des facultĂ©s cognitives et langagiĂšres avancĂ©es. Le traducteur doit dĂ©velopper des mĂ©canismes de comprĂ©hension et de reformulation remarquables, et ce en prenant en compte deux langues diffĂ©rentes, qui n’ont pas les mĂȘmes contraintes.
Ce type de facultĂ© est largement Ă©tranger au monde des machines et des ordinateurs. Les systĂšmes artificiels dĂ©veloppĂ©s depuis les dĂ©buts de l’informatique sont Ă  peine balbutiants de ce point de vue, et bien Ă©videmment trĂšs loin des capacitĂ©s des humains en matiĂšre de comprĂ©hension et de reformulation. Reformuler une phrase est en effet un problĂšme difficile qui implique d’une part des connaissances approfondies sur la langue elle-mĂȘme, et d’autre part des facultĂ©s qui ont trait Ă  la recherche d’analogies et d’équivalences entre concepts, ce qui dĂ©passe le simple niveau linguistique.
Les concepteurs de systĂšmes de traduction automatique ont conscience de ces limites. Peu de chercheurs ont abordĂ© la question de la traduction de textes littĂ©raires : il y a un assez grand consensus sur le fait que la traduction automatique est une tĂąche difficile, qui doit ĂȘtre appliquĂ©e Ă  des textes relativement communs (par exemple Ă  des textes d’actualitĂ©s) et non Ă  des Ɠuvres littĂ©raires. Les domaines techniques posent aussi des problĂšmes propres dans la mesure oĂč ils emploient un vocabulaire spĂ©cialisĂ©, donc trĂšs diffĂ©rent du vocabulaire commun.
En consĂ©quence, la qualitĂ© des traductions rĂ©alisĂ©es automatiquement est une question largement dĂ©battue. Toutes les Ă©quipes de recherche visent Ă  se rapprocher de la qualitĂ© des traductions humaines. En mĂȘme temps, tout le monde sait que cet objectif est trĂšs ambitieux quand on a affaire Ă  des textes « tout venant », c’est-Ă -dire pouvant potentiellement aborder n’importe quel domaine. Cet objectif est aussi difficile Ă  dĂ©finir, dans la mesure oĂč la qualitĂ© d’une traduction dĂ©pend Ă©troitement de la nature et de la difficultĂ© du texte Ă  traduire, et surtout de la langue source et de la langue cible.
Pendant longtemps, les outils de traduction fonctionnaient par assemblage de fragments de textes dans la langue cible, trouvĂ©s dans des corpus bilingues de rĂ©fĂ©rence (voir le chapitre 8). L’approche Ă©tait relativement locale, ce qui posait d’évidents problĂšmes de pertinence et cohĂ©rence. Le niveau textuel (la tonalitĂ© et le style du texte Ă  traduire) n’était quasiment jamais pris en compte. Plus rĂ©cemment, en particulier depuis 2016, ce sont les approches par « apprentissage profond » qui ont pris le relais, dans l’industrie mais aussi dans le monde de la recherche. Ces mĂ©thodes rĂ©centes abordent la question de la traduction directement au niveau de la phrase vue comme une entitĂ© globale, ce qui Ă©vite certains Ă©cueils des mĂ©thodes statistiques prĂ©cĂ©dentes. Ce n’est pas leur seul avantage, mais cette caractĂ©ristique explique quand mĂȘme en grande partie leur succĂšs.
Il faut enfin prendre conscience des trĂšs grandes difficultĂ©s que pose l’analyse des langues par ordinateur. Le nombre de mots Ă  considĂ©rer, leurs variations, le nombre de sens diffĂ©rents pour chaque mot, le fait que certains mots n’ont pas de sens en eux-mĂȘmes mais font partie de mots composĂ©s (« pomme de terre ») ou d’expressions idiomatiques (« jouer cartes sur table », « pleuvoir Ă  verse »), tout cela rend le problĂšme infiniment complexe. Il existe enfin de nombreuses langues avec une morphologie complexe, des cas (nominatif, gĂ©nitif, etc.) et un ordre des mots relativement libre. Pour ces langues, si on ne dispose pas d’analyseurs puissants pouvant identifier et analyser par exemple la fonction syntaxique des mots dans la langue source, les performances seront obligatoirement « moyennes » car cette information est nĂ©cessaire pour traduire correctement. La section suivante vise Ă  illustrer certaines de ces difficultĂ©s.

Pourquoi l’analyse de la langue par ordinateur est-elle difficile ?

En dehors du manque d’information sur l’utilisateur, le contexte ou le style de texte considĂ©rĂ© (ce qui a pour consĂ©quence que la traduction automatique fonctionne « en aveugle » en quelque sorte, par rapport Ă  un traducteur professionnel), une autre difficultĂ© tient Ă  la tĂąche elle-mĂȘme, qui implique l’analyse des langues, improprement appelĂ©es « naturelles » par opposition aux « langages formels » (comme les langages informatiques).
Les linguistes et les informaticiens s’intĂ©ressent depuis des annĂ©es au « traitement automatique de la langue » (TAL) ou Ă  la « linguistique computationnelle » pour reprendre le terme copiĂ© de l’anglais (computational linguistics). Le TAL pose de trĂšs grandes difficultĂ©s parce que l’ordinateur n’a a priori aucune connaissance sur la langue. Il faut donc lui indiquer ce qu’est un mot, une phrase, etc. Jusque-lĂ , les choses peuvent sembler relativement simples, mĂȘme si ce n’est pas tout Ă  fait vrai (ainsi, on considĂšre « aujourd’hui » comme un mot bien qu’il comprenne une apostrophe ; et il faut connaĂźtre le contexte pour pouvoir dĂ©terminer si « rendez-vous » forme un ou deux mots). Les langues naturelles posent en fait une redoutable difficultĂ© : chaque mot, chaque expression et chaque phrase peut ĂȘtre ambiguĂ«.
Prenons un exemple : « L’avocat a livrĂ© une plaidoirie au vitriol. » Chaque mot introduit de nombreuses difficultĂ©s pour un ordinateur. Pour un humain, il est par exemple Ă©vident que « avocat » dĂ©signe ici un juriste, « livrĂ© » correspond au verbe « livrer » et que « au vitriol » est une expression figĂ©e. Il n’en va pas de mĂȘme pour un ordinateur : « avocat » peut dĂ©signer un fruit ; « livrĂ© » peut facilement ĂȘtre identifiĂ© comme un verbe, mais le sens est ici largement mĂ©taphorique : il n’y a pas de livraison Ă  proprement parler dans la phrase. Les complĂ©ments prĂ©positionnels posent eux aussi des problĂšmes importants : comment savoir que « au vitriol » est rattachĂ© Ă  « plaidoirie » plutĂŽt qu’au verbe « livrĂ© » ? Si on avait eu affaire Ă  la phrase « l’avocat a livrĂ© une plaidoirie au palais de justice », le complĂ©ment « au palais de justice » aurait dĂ» ĂȘtre rattachĂ© au verbe et non au nom « plaidoirie », alors que la structure des deux phrases semble tout Ă  fait comparable de prime abord.
On pourrait objecter Ă  cela que « au vitriol » est une expression figĂ©e qui doit ĂȘtre enregistrĂ©e comme un tout (c’est-Ă -dire comme une entrĂ©e Ă  part entiĂšre) dans le dictionnaire. Cela est probablement vrai mais on ne fait ainsi que repousser le problĂšme dans la mesure oĂč cette stratĂ©gie revient Ă  augmenter le nombre de mots et d’expressions, ce qui a pour consĂ©quence d’introduire de nouvelles ambiguĂŻtĂ©s, et finalement de rendre le problĂšme sans fin.
Un dictionnaire du français courant contient en gĂ©nĂ©ral entre 50 000 et 100 000 mots (hors noms propres). Quand on considĂšre toutes les formes que l’on trouve effectivement dans les textes (un verbe comme « livrer » correspond en fait Ă  plusieurs dizaines de formes conjuguĂ©es : « livrions », « livraient », « livrera », etc.), il est admis qu’il faut multiplier ce chiffre par huit environ en français. À cela, il faut ajouter les noms propres (on trouve des dictionnaires de plusieurs millions de noms propres, la plupart Ă©tant ambigus avec des noms communs, comme « Pierre » qui peut ĂȘtre confondu avec une « pierre », mĂȘme si l’usage des majuscules limite le problĂšme en français) et les dictionnaires de mots composĂ©s (qui peuvent aussi inclure plusieurs dizaines de milliers d’items). Enfin, chaque domaine technique est lui-mĂȘme susceptible d’inclure de nombreux termes spĂ©cifiques, souvent ambigus du point de vue formel avec d’autres mots de la langue.
Les problĂšmes d’analyse syntaxique se greffent lĂ -dessus (dans notre exemple ci-dessus, faut-il rattacher « au vitriol » Ă  « plaidoirie » ou au verbe « a livrĂ© » ?) et l’on voit qu’on a trĂšs rapidement affaire Ă  un problĂšme d’explosion combinatoire. La plupart des problĂšmes peuvent ĂȘtre rĂ©solus facilement, de maniĂšre locale (par exemple avec des heuristiques du type « comme plaidoirie apparaĂźt dans le contexte du mot avocat, ce dernier dĂ©signe probablement l’homme de loi et non le fruit ») mais d’autres problĂšmes nĂ©cessitent des connaissances plus complexes, difficiles Ă  concevoir de maniĂšre exhaustive quand on a affaire Ă  des millions d’items.
Ce qui peut sembler surprenant, c’est que tout cela ne pose aucun problĂšme de comprĂ©hension Ă  un humain, qui ne voit mĂȘme pas qu’il y a ambiguĂŻtĂ© (au sens oĂč il faut choisir la bonne Ă©tiquette, le bon sens, le bon rattachement de chaque mot pour comprendre la phrase). De fait, cette dimension de la traduction automatique, et plus gĂ©nĂ©ralement cette difficultĂ© dans l’analyse des langues humaines ont longtemps Ă©chappĂ© aux concepteurs de systĂšmes automatiques tant la comprĂ©hension est un phĂ©nomĂšne naturel, direct et inconscient pour un humain. Il est d’ailleurs trĂšs improbable que le cerveau analyse toutes les possibilitĂ©s pour chaque mot afin d’obtenir une reprĂ©sentation sĂ©mantique pour une phrase donnĂ©e : grĂące au contexte, le cerveau accĂšde probablement directement Ă  la bonne interprĂ©tation, sans mĂȘme considĂ©rer les analyses alternatives. À ce sujet, il a parfois Ă©tĂ© proposĂ© un parallĂšle avec le cube d...

Table des matiĂšres

  1. Couverture
  2. Titre
  3. Copyright
  4. Introduction
  5. CHAPITRE 1 - Préliminaires : autour de la traduction et du traitement automatique des langues
  6. CHAPITRE 2 - L'évolution de la traduction automatique
  7. CHAPITRE 3 - Avant la naissance des ordinateurs

  8. CHAPITRE 4 - Les débuts : les systÚmes à base de rÚgles
  9. CHAPITRE 5 - Le rapport ALPAC (1966)
  10. CHAPITRE 6 - Corpus parallÚles et alignement de phrases
  11. CHAPITRE 7 - La traduction automatique à base d'exemples
  12. CHAPITRE 8 - La traduction automatique statistique et l'alignement de mots
  13. CHAPITRE 9 - La traduction automatique par apprentissage profond
  14. CHAPITRE 10 - L'évaluation des systÚmes de traduction automatique
  15. CHAPITRE 11 - Le marché de la traduction automatique
  16. L'avenir de la traduction automatique
  17. Références
  18. Table