Voilà bien longtemps que l'homme a intégré l'existence de différentes langues non comme un progrès, une richesse culturelle, comme le fruit des évolutions de ses pensées, comme l'expression de ses adaptions à des contextes naturels, historiques, politiques ou sociaux divers, mais plutôt comme une punition mythique, un obstacle à surmonter pour faciliter, voire libérer, les échanges humains de toutes natures.
Voilà donc bien longtemps aussi qu'il tente par différents moyens de vaincre cet obstacle, de contourner cette punition.
Pendant la Deuxième Guerre mondiale, la défense des libertés passait par l'interception et le décodage de messages secrets. Ces messages étaient codés pour n'être lisibles par leur destinataire qu'après un décryptage, au moyen d'un système de codage connu de lui et de l'émetteur du message. De là, entre autres, est née la supercherie, le mirage d'une possibilité de traduction automatique fondée sur l'idée qu'une langue serait un code, et que passer d'une langue à une autre reviendrait finalement à transposer un message d'un code à un autre.
Les premiers modèles de traduction automatique ont ainsi été développés à partir de listes de mots, complétées de règles syntaxiques, grammaticales et linguistiques pour chaque langue des combinaisons recherchées. L'ajout de ces règles permettait, avec un travail d'arborescence, d'améliorer les résultats de transcodage pour imiter un message rédigé directement dans la langue cible.
Puis les chercheurs commencèrent à envisager, en s'inspirant de la biologie, l'idée que les machines puissent, à partir de ces données, "apprendre" par elles-mêmes comment traduire en développant des réseaux dit neuronaux, c'est-à-dire supposément inspirés de la structure neurone du cerveau humain. Pour faire fonctionner ces réseaux, la machine doit en premier lieu comparer d'immenses corpus de textes disponibles dans deux langues. À partir de cette étude, elle crée une représentation spatiale de chaque langue, un modèle d'organisation linguistique, établi, pour chaque combinaison de langue source et de langue cible, sur la base d'occurrences et de proximités récurrentes de mots ou groupes de mots les uns par rapport aux autres. Le résultat du transcodage est ici obtenu à partir d'un calcul statistique, de probabilité, en somme.
L'évolution la plus récente a opéré une nouvelle bascule avec la naissance des modèles multilingues. Certaines combinaisons de langues ne disposent pas de corpus de textes suffisants dans les deux langues. Pour certaines combinaisons, les corpus sont même inexistants. Les mathématiciens estiment cependant que les représentations spatiales, les modèles établis pour chaque langue, présentent un niveau d'abstraction important, qu'ils sont en partie indépendants des langues et donc transposables d'une langue, celle pour laquelle on dispose d'un corpus de texte suffisant, à l'autre, celle pour laquelle il est inexistant. Cette idée repose sur une vision des langues comme structures mathématiques d'expression de toute pensée humaine. Elle ravive le rêve d'un traducteur universel, nourri par l'illusion d'une possibilité de codage universel d'expression de la pensée, indifféremment du pays, de l'époque, de la culture, du caractère du locuteur ou du penseur.
La machine ainsi développée promet de transposer un message dans des combinaisons de langues inédites sans même passer par une langue pivot. Son fonctionnement et ses calculs entrent dans un niveau de complexité tel qu'il n'est même plus compréhensible par l'être humain. Avec l'algorithme, la machine devient un automate qui échappe à l'entendement et au contrôle de l'homme.
Les résultats produits par ces automates témoignent de deux difficultés majeures. Devant des formulations ou des éléments inattendus, la machine, qui doit générer une réponse sans matière, invente le résultat, on dit même aujourd'hui qu'elle "hallucine". Ses résultats sont d'autre part limités par la nature même de la méthode statistique, qui gomme les nuances, les cas les moins fréquents, les registres, les expressions et modalités originales, bref, tout ce qui constitue la personnalité d'un message, pour ne conserver qu'une expression moyenne, standardisée, conforme au modèle source et au modèle cible.
Les risques sont évidemment nombreux. Notons simplement ici, dans un contexte mondial déjà largement dominé par la culture en langue anglaise, et un débat politique phagocyté par la profusion de postures sans réflexion, sans fond, les dangers d'une uniformisation et d'une radicalisation des messages et, partant, de la structure même des pensées de tous horizons. On peut craindre également à raison que ces modèles, nourris essentiellement de contenu en ligne, finissent, du fait du développement et de la diffusion de leurs propres productions, par se nourrir d'eux-mêmes, dans un schéma de cannibalisme et d'appauvrissement exponentiel. Les messages aux sources invérifiables sont pourtant formulés par les machines de manière docte, affirmative, sans les réserves d'une expression humaine consciente de ses limites. Leur destinataire, consciemment ou non, les valorise comme vérité indubitable et finit même par les intégrer comme issus de sa propre pensée.
Les philosophes de tous temps ont étudié le grec ancien pour pouvoir appréhender et travailler à partir des idées de leurs aînés. On estime que les Inuits disposent de 50 à 100 mots pour désigner ce que le français appelle seulement "neige". Il n'est pas possible de faire entrer un carré dans un rond sans le modifier ou en réduire la taille. Les traducteurs sont des transmetteurs d'idées. Pour œuvrer, ils cherchent sans relâche, d'abord à comprendre le message source dans son ampleur, son intention, ses contextes et sa profondeur, ensuite à le réexprimer de manière intelligible pour son destinataire dans la langue et le contexte cibles. Chanceux, nous avons pour métier l'une "des rares activités humaines où l’impossible se produit par principe" (Mariano Antolín Rato). Soyons conscients de nos limites, continuons à œuvrer pour réaliser l'impossible.
Cet article a été rédigé notamment à partir de l'émission Le Code a changé (https://www.arte.tv/fr/videos/110863-004-A/le-code-a-change/), consacrée à la traduction automatique.