%40تخفیف

INFORMATISATION DE LA TRADUCTION Etude des systèmes de traduction en ligne sur le web

تعداد88 صفحه در فایل word

Département de Français

INFORMATISATION DE LA TRADUCTION

Etude des systèmes de traduction en ligne sur le web

 

 

Le langage naturel, le mode privilégié par les humains pour communiquer entre eux, de manière parlée ou écrite ou bien par des signes, a évolué depuis des dizaines de milliers d’années. Cette évolution a donné lieu à certains groupes de langues existantes aujourd’hui, ou ayant existé auparavant, qui ont gardé une certaine proximité provenant de leur origine commune. Toutefois, d’autres langues ont leurs origines encore incertaines, donnant lieu à de nombreuses questions et débats sur l’origine des langues. Selon Ferdinand de Saussure, «C’est une idée très fausse que de croire que le problème de l’origine du langage soit un autre problème que celui de ses transformations. » (Saussure, 2002)

L’homme à cause de son besoin de communiquer, essaye naturellement de comprendre d’autres langues, même celles qu’il ne connaît pas. Dans ce temps moderne, les progrès technologiques et la communication mondialisée augmentent ce besoin d’accéder à des données, dans des langues que nous ne maîtrisons pas, cela pose un problème de compréhension des idées et d’optimisation des échanges socioculturels, politiques, économiques, etc. Pour pallier ces problèmes, il y a un usage de plus en plus développé et important des pratiques de traduction. La traduction, et en particulier la traduction automatique, répond aujourd’hui à des enjeux économiques[1], politiques, culturels, techniques, scientifiques qui s’illustrent par une diffusion de produits sur différents supports : traduction de textes officiels, de logiciels, de jeux vidéo, d’aide en ligne de logiciels, de contrats d’assurance, de sous-titres de films, de posologies de médicaments, de modes d’emploi, de prospectus publicitaires, de romans, de conférence, etc. Autrement dit, tout est susceptible d’être traduit mais cela ne peut se faire sans rigueur et méthode. Il faut tenir compte en effet du transfert culturel[2] qui mènera à la « bonne traduction ».

L’histoire de la traduction automatique montre des périodes où les investissements financiers et humains diversifient, mais l’intérêt pour ce domaine depuis plus de 60 ansa provoqué des progrès considérables. De nombreux projets très importants sont financés par l’armée, ou par des institutions comme l’Union Européenne (UE), dont le besoin en traduction est marquant: 23 langues officielles parlées dans l’UE, 1,86 million de pages (comportant 1500 caractères, sans les espaces) traduites en 2010, dans des domaines très divers (droit, finance, science, économie, etc.). Le budget consacré à la traduction représente moins d’1% du budget total de l’UE, ce qui correspond environ à 2 euros par habitant et par an[3].

Aujourd’hui, la recherche académique et industrielle est très dynamique et de nombreux travaux sont publiés dans la littérature scientifique. Pourtant, ce procédé a tendance à figer les systèmes de traduction sur les solutions les plus performantes selon une tâche ou un critère d’évaluation particulier et cela peut poser le problème de l’évaluation de la qualité des traductions produites par les systèmes automatiques. Qu’est-ce qu’une bonne traduction, et comment l’évaluer ?

Quelques approches, actuellement très populaires, reposent sur l’alignement statistique d’exemples de traductions. La traduction automatique se rapproche alors de la linguistique de corpus. Ces méthodes permettent d’arriver aux bonnes performances dans le vocabulaire contrôlé, ou de systèmes construits pour des domaines de spécialités. Mais il paraît encore impossible aujourd’hui de traduire parfaitement des textes très longs et génériques, comme des romans par exemple. La facilité dutilisation des traductions dépend donc du besoin et de l’usage fait des hypothèses fournies automatiquement par les systèmes.

De nombreux outils de traduction mis à disposition existent, que ce soit des logiciels (par exemple développé par Systran[4]), ou des interfaces accessibles en ligne (Google Translate[5], Babel Fish[6], Systran[7], etc.). Des industriels s’intéressent donc à la traduction automatique depuis des années et proposent quelques solutions efficaces selon des contextes particuliers. Systran, IBM, ou encore Xerox, sont des acteurs importants dans le développement et la commercialisation d’outils de traduction automatique. De plus, la communauté scientifique travaille depuis plusieurs années sur des boîtes à outil permettant de construire un système de traduction.

De même, la traduction assistée par ordinateur (TAO) et la croissance des mémoires de traduction ainsi que de très grandes mémoires de traduction en ligne, fournies par les traducteurs clients, a remplacé la traduction automatique même si cette dernière a pourtant un regain de popularité sur le web et en Traitement Automatique des Langues (TAL) grâce au développement du modèle statistique et à la création de l’outil Google translate.

Comment la traduction automatique peut être efficace sans compromettre la qualité du texte traduit ? Est-ce qu’elle présente encore un intérêt pour le traducteur considérant des «erreurs» qu’elle génère ? On va tenter de trouver la réponse de ces questions en opposant les méthodes de la traduction pratiquée par la majorité des traducteurs et la post-édition d’une ébauche traduite automatiquement. On va spécialement analyser la qualité de la traduction des sigles et des acronymes français par diverse machines à traduire et ensuite, proposer l’utilisation d’une application androïde afin d’améliorer leurs erreurs.

« Les sigles s’emploient pour raccourcir les dénominations trop longues ou compliquées. Les uns indiquent un nom de pays : les USA = United States of America, UK = United Kingdom. Les autres relèvent des noms communs : HLM = habitation à loyer modéré, PME = Petites et moyennes entreprises. De manière générale, ce sont les substantifs qui sont abrégés. Pourtant, les acronymes forment, un sous-ensemble de sigles. Ils sont composés d’initiales ou de premières lettres/de premières syllabes d’une désignation, sont prononcés comme un seul mot, contrairement aux sigles qui se prononcent lettre par lettre, et sont parfois privés de point abréviatif. » (FRIDRICHOVÁ, 2012)

Certains acronymes sont donc fondés à partir de premières lettres de mots qui servent à réduire : OVNI (Objet Volant Non Identifié)[8]. D’autres sont formés sur les premières syllabes : DIPER (DIrection du PERsonel) et/ou mêlent initiales et syllabes : RIMA (Régiment d’Infanterie de MArine). En outre, beaucoup d’entre eux proposent des combinaisons différentes : COFACE (COmpagnie Française d’Assurance pour le Commerce Extérieur).(BÉCHADE, 1994)

Les problèmes posés par la traduction automatique des sigles et de leur(s) signifiant(s) sont nombreux et variés. Les sigles constituent une terminologie complexe en raison du dédoublement du signifiant d’un même signifié. Il y a des sigles ayant le même signifié et qui sont identiques dans les deux langues : Modem, Laser, UNICEF,… sont aussi compréhensible en français qu’en anglais et en persan (en traduisant avec l’orthographe persan). Pourtant, dans d’autres cas on pout trouver des sigles dont la signification est totalement inconnue dans la langue cible. (RIB, BD, ONU,…). La démarche qu’il faut faire ici, est d’essayer de chercher leurs sens dans la langue d’arrivée.

Donc il est indispensable de savoir comment les aborder afin que le texte traduit soit uniforme et puisse être lu harmonieusement.

Cette recherche est organisée de la façon suivante :

– Le chapitre 1 est centré sur la définition et l’historique de la traduction automatique ;

– Le chapitre 2 présente les paradigmes de la traduction automatique et se termine par une description sur les tendances actuelles ;

– avec l’analyse du corpus, on présente dans le chapitre 3, Les différents problèmes d’interprétation posés par la Traduction Automatique ;

– Le chapitre 4 propose des méthodes pour améliorer la traduction des systèmes de Traduction Automatique ;

– On explique dans Le chapitre 5 comment développer une application Androïde, plus précisément les démarches faites pour réalisation de notre dictionnaire des sigles et d’acronymes français – persan ;

Et à la fin, il y a la conclusion.

[1]« En tant qu’activité de service, la traduction génère un chiffre d’affaires important […]. On estimait en 1997 le chiffre d’affaires de la traduction et de l’interprétation sur le marché libre à 3.75 milliard d’euros.

Quatre ans plus tard, on peut estimer que ce chiffre d’affaires a pratiquement doublé » (GOUADEC, Profession : Traducteur, 2002).

[2]Il faut que « le message soit accepté, puis compris, dans la culture destinataire [afin que] le traducteur organise le contenu et l’exprime dans le code voulu » (GOUADEC, faire traduire, 2004).Autrement dit, il faut interpréter pour traduire comme le rappelle le titre de l’ouvrage de (Seleskovitch Danica, Lederer Marianne , 1984)

[3] http://ec.europa.eu/dgs/translation/faq/index_fr.htm

[4]http : //www.systran.fr/produits-de-traduction

[5]http : //translate.google.fr

[6]http : //babelfish.yahoo.com

[7]http : //www.systranet.fr/translate

[8] Les majuscules montrent le processus de l’abrègement.

 

 

Introduction …………………………………………………………………………………………………………………………………………………………………… 4

Chapitre 1 : La définition et l’historique de la traduction automatique

1.1      Définition………………………………………………………………………………………………………………………………………………………………………………9

1.2      Historique……………………………………………………………………………………………………………………………………………………………………………..10

1.2.1   Les pionniers en traduction automatique …………………………………………………………………………………………………………….. 10

1.2.2   Les années 80 ……………………………………………………………………………………………………………………………………………………………… 12

1.2.3   Le développement des aides à la traduction………………………………………………………………………………………………………… 13

1.2.4   Des années 90 à aujourd’hui……………………………………………………………………………………………………………………………………. 13

Chapitre 2 : Les paradigmes de la traduction automatique

  • La traduction symbolique……………………………………………………………………………………………………………………………………………… 17

  • Le paradigme des règles………………………………………………………………………………………………………………………………………………… 17

  • Le paradigme statistique……………………………………………………………………………………………………………………………………………….. 19

  • Le parcours d’un texte à traduire…………………………………………………………………………………………………………………………………..20

  • Les tendances actuelles………………………………………………………………………………………………………………………………………………….. 23

Chapitre 3 : Les problèmes d’interprétation posés par la TA

3.1      Polysémie et homonymie………………………………………………………………………………………………………………………………………………… 28

3.2      Ambiguïté syntaxique………………………………………………………………………………………………………………………………………………………. 30

3.3      Ambiguïté référentielle……………………………………………………………………………………………………………………………………………………. 30

3.4      Les expressions figées………………………………………………………………………………………………………………………………………………………. 31

3.5      Idiotismes et métaphores………………………………………………………………………………………………………………………………………………… 33

3.6      Lanéologie………………………………………………………………………………………………………………………………………………………………………….. 34

3.7      Les noms propres……………………………………………………………………………………………………………………………………………………………… 35

3.8      Les mots d’origine étrangère et les emprunts……………………………………………………………………………………………………………. 37

3.9      Les séparateurs…………………………………………………………………………………………………………………………………………………………………. 37

3.10    Les sigles et les acronymes……………………………………………………………………………………………………………………………………………… 39

3.11    Synonymes………………………………………………………………………………………………………………………………………………………………………….. 40

3.12    Transposition…………………………………………………………………………………………………………………………………………………………………….. 42

3.13    Orthographe……………………………………………………………………………………………………………………………………………………………………….. 42

Chapitre 4 : Amélioration des Systèmes de Traduction Automatique

4.1      Évaluation de la traduction automatique ……………………………………………………………………………………………………………………. 45

4.2      Trois opérations pour améliorer la qualité de la traduction par machine……………………………………………………….45

4.2.1           Pré-édition du texte source avant la TA……………………………………………………………………………………………..46

4.2.2           Personnalisation du système par la création d’un dictionnaire spécialisé…………………………………….50

4.2.3           Post-édition…………………………………………………………………………………………………………………………………………51

  1. Contexte de la post-édition………………………………………………………………………………………………………………..52

  2. Mode de fonctionnement de la post-édition…………………………………………………………………………………………..…53

Chapitre 5 : Développement d’une application Androïde (Dictionnaire des sigles et d’acronymes français – persan)

5.1      Quest-ce que le système Android?………………………………………………………………………………………………………………………………. 60

5.2      La philosophie et les avantages d’Android…………………………………………………………………………………………………………………….60

5.3      Logo ……………………………………………………………………………………………………………………………………………………………………………………….61

5.4      Android et la plateforme Java…………………………………………………………………………………………………………………………………………..61

5.5      Création de notre projet …………………………………………………………………………………………………………………………………………………..62

5.6      Les ressources……………………………………………………………………………………………………………………………………………………………………..65

5.7      Le format XML …………………………………………………………………………………………………………………………………………………………………….66

5.8      La classe R…………………………………………………………………………………………………………………………………………………………………………….67

5.9      Le manifeste de l’application…………………………………………………………………………………………………………………………………………….68

5.10    Créer l’écran de traduction et son interface………………………………………………………………………………………………………………….69

5.11    Base de données……………………………………… ………………………………………………………………………………………………………………………..71

5.11.1         Données ………………………………………………………………………………………………………………………………………………………………72

5.11.2         Les tables……………………………………………………………………………………………………………………………………………………………..73

5.11.3         Les lignes……………………………………………………………………………………………………………………………………………………………..73

5.11.4         Création et manipulation des données…………………………………………………………………………………………………………74

5.12    Réalisation de l’application dictionnaire……………………………………………………………………………………………………………………….78

 

Conclusion…………………………………………………………………………………………………………………………………………………………………………………………… 79

Bibliographie……………………………………………………………………………………………………………………………………………………………………………………… 83

Sitographie…………………………………………………………………………………………………………………………………………………………………………………………. 87

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo