Loading...
 
[Show/Hide Right Column]

Nathalie Renevier

Nathalie Renevier
Read Blog
View Profile

Vous avez dit corpus ?

Published by via-linguistech@alp-traduction.fr on 2012-04-05

Mais de quoi s’agit-il exactement ? Si le mot semble connu de la plupart des traducteurs, sa définition l’est moins, et l’utilité d’un tel outil n’est pas toujours évidente. Commençons par une définition, extraite du portail du CNRTL :

 

Corpus

Nom masculin

Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique.

 

Quel est l’intérêt d’un tel recueil pour les traducteurs? L’idée est de pouvoir vérifier la phraséologie d’un domaine, les collocations ou l’utilisation d’un terme dans un contexte donné, afin de mieux appréhender les textes auxquels nous sommes confrontés et de les traduire de manière plus idiomatique et plus précise. Les corpus bilingues ou multilingues permettent également de trouver une traduction grâce aux textes parallèles, ou bitextes. Ainsi, des corpus comme Linguee ou Tradooit font partie des références favorites de nombreux traducteurs.

 

Linguee présente l’avantage d’être disponible en plusieurs combinaisons de langues :

  • anglais ⇔ français
  • anglais ⇔ allemand
  • anglais ⇔ espagnol
  • anglais ⇔ portugais.

Les combinaisons chinois ⇔ anglais et japonais ⇔ anglais sont prévues dans un futur proche.

 

Ce corpus est constitué principalement de documents officiels de l’Union européenne, de brevets, de sites bilingues d’universités ou d’entreprises et de sites canadiens.

 

Même si les résultats de recherche impliquent toujours des vérifications supplémentaires, cet outil peut s’avérer très utile notamment dans les domaines juridique et financier. À ce jour, toutes langues confondues, Linguee contient plus de 100 millions de phrases avec leur traduction.

 

Tradooit, disponible uniquement dans la combinaison anglais français, est un concordancier basé sur l’alignement de textes issus essentiellement de Termium, de différents sites canadiens, d’organisations internationales comme l’OMC et de quelques sites européens comme celui de l’EMA (European Medicines Agency) ou du Parlement européen. Des sites de référence sont indexés et ajoutés régulièrement et, comme Linguee, Tradooit s’enrichit de jour en jour. Pour être au courant de l'actualité de Tradooit, n'hésitez pas à consulter le blogue.

 

Parmi les corpus monolingues français, celui de l’Université de Leipzig mérite qu’on s’y arrête. Cette base de données, qui contient près 700 millions de mots (environ 37 millions de phrases), est dédiée à l’étude du français contemporain. Elle est constituée de différents types de données :

  • Informations issues de journaux francophones (> 19 millions de phrases)
  • Pages de sites Internet (> 11 millions de phrases)
  • Wikipédia (± 6 millions de phrases)

 

Mots-clefs, nombre d’occurrences, co-occurrences significatives, voisins de gauche et de droite, exemples en contexte, rien ne manque. Même s’il reste très généraliste, ce corpus deviendra vite indispensable, surtout pour les non-francophones amenés à rédiger dans la langue de Molière.

 

Mais le plus intéressant pour nous, traducteurs, reste de constituer, au fil de nos lectures, les corpus dont nous avons besoin dans nos domaines de spécialisation, à partir de sources dont la fiabilité ne saurait être remise en doute. Abonnements à des lettres d’information, à des journaux ou des revues en ligne, ou encore à des journaux ou revues papier (avec passage au scanner et à l’OCR), tout est bon pour constituer nos propres corpus.

 

Spécialisée dans la traduction médicale et pharmaceutique, je me suis constitué plusieurs corpus, parmi lesquels : médecine générale, anatomie, pharmacologie, gastro-entérologie, maladies infectieuses, etc. Comment?

 

Je suis abonnée à de nombreuses lettres d’information, mais également à des revues en ligne. Régulièrement, j’importe dans différents fichiers classés par thèmes, les articles qui ont retenu mon attention, des lettres d’information, le bulletin épidémiologique hebdomadaire (BEH) publié par l’Institut de veille sanitaire (INVS), les messages d’alerte et les informations de sécurité sanitaire publiés par l’Agence française de sécurité sanitaire des produits de santé (AFSSAPS), etc. Au fil du temps, j’ai ainsi accumulé dans ces fichiers, des dizaines, voire des centaines de milliers de mots qui constituent des corpus fiables, dans lesquels je peux en cas de doute vérifier la syntaxe, les cooccurrences, ou encore l’orthographe d’une maladie ou d’une molécule.

 

J’ai également créé un corpus que j’ai intitulé « à l’oral », dans lequel j’ai récapitulé toutes les phrases ou expressions notées à la volée lors de conférences ou de colloques auxquels j’ai eu la chance d’assister. L’intérêt de ce corpus réside dans le caractère spontané, instantané du locuteur qui, même s’il a bien évidemment préparé son intervention, ne s’exprime jamais de la même manière que s’il rédigeait un article pour une publication. L’expression orale est souvent plus familière, et certaines formulations peuvent s’avérer très utiles pour adapter un texte rédigé par un spécialiste à l’attention du grand public, tout en respectant la syntaxe et les expressions idiomatiques du domaine concerné.

 

Pour gérer ces corpus, j’utilise un petit utilitaire gratuit, extrêmement pratique, que je vous présenterai prochainement.

 

2 comments


Bonjour Nathalie,
Merci pour cette contribution précieuse et éclairée sur les corpus.
Quel application utilisez-vous pour stocker et gérer vos corpus thématiques? J'avoue que je suis curieux de lire votre prochain billet! Mais aussi d'en savoir plus sur votre corpus « à l’oral »!
Bienvenue dans notre équipe de blogueurs!




Votre billet est vraiment enrichissant!
De toute évidence, établir un corpus digne de ce nom nécessite beaucoup de travail. Comme plusieurs, je connaissais déjà TradooIT, or, vous m'avez convaincue de faire l'essai de Linguee. Je suis, à l'instar de Julian, aussi curieuse de découvrir votre utilitaire gratuit!