Chargement...
 

Tutoriel sur TermoStat Web, niveau I

 


Autres tutoriels sur des extracteurs de termes


 

Les dépouilleurs terminologiques, ou extracteurs de termes, permettent d’identifier des unités clés dans un texte ou une collection de textes. Ce dépouillement peut aider un traducteur ou un autre langagier à se familiariser avec les thèmes et le contenu d’un texte et peut aussi servir de point de départ pour des recherches terminologiques. Cela dit, il est essentiel de reconnaitre que l’identification automatique d’unités clés est un processus qui se base entièrement sur des critères formels et qui ne peut qu’identifier des candidats termes. Une évaluation humaine est toujours nécessaire pour évaluer le caractère terminologique des candidats identifiés et leur pertinence dans un contexte donné. 

 

L’identification des candidats termes repose généralement directement ou indirectement sur la fréquence des occurrences d’unités, sur leur forme ou sur les deux à la fois. Ces méthodes d’extraction terminologique sont caractérisées respectivement comme des approches statistiqueslinguistiques ou hybrides. Essentiellement, l’hypothèse de départ suppose que des unités qui sont particulièrement fréquentes, qui ressemblent aux patrons terminologiques typiques (p. ex., nom + préposition + nom ou nom + adjectif pour le français) ou qui satisfont aux deux conditions sont susceptibles d’être des termes. 

 

I.     Introduction

 

I. Introduction

 

TermoStat, créé par Patrick Drouin de l’Observatoire de linguistique Sens-Texte (OLST) de l’Université de Montréal, est un dépouilleur terminologique en ligne qui utilise une méthode hybride – c’est-à-dire qui intègre des méthodes statistique et linguistique – pour identifier des candidats termes. Il prend en compte non seulement la structure des unités (en faisant appel à un étiqueteur morphosyntaxique pour cibler des substantifs, des adjectifs et des unités complexes dont ces derniers font partie comme autant de candidats termes), mais il considère aussi les fréquences relatives des unités identifiées dans un corpus d’analyse (le texte ou les textes à dépouiller) et un corpus de référence (une collection de textes journalistiques). TermoStat permet ainsi d’identifier des candidats termes simples et complexes à l’aide d’un seul processus de dépouillement.

 

Drouin utilise le terme spécificité pour désigner l’unité de mesure par défaut qui permet d’identifier des candidats termes en calculant la différence entre les fréquences relatives des unités candidates dans les corpus d’analyse et de référence. TermoStat peut toutefois utiliser d’autres mesures pour identifier des termes. Ainsi, il est possible de comparer les résultats de différentes approches pour évaluer leur performance dans un contexte donné.

 

Pour faire un décompte exact des occurrences de chaque candidat terme, TermoStat utilise un processus qui s’appelle la lemmatisation; il ramène à leur forme de base les formes fléchies des candidats termes (p. ex., dans droits ancestraux, les formes ancestrauxancestrale et ancestrales seraient ramenées à la forme ancestral et droits à droit) et chaque occurrence d’une de ces formes est comptée comme une occurrence de cette forme de base. Pour cette raison, les résultats affichés incluent deux champs : le candidat au regroupement (qui est la forme de base ou la suite des formes de base identifiées par TermoStat) et les variantes orthographiques (qui sont les formes observées dans le texte lui-même).

 

Pour en savoir plus sur ces techniques d’extraction terminologique, vous pouvez consulter, entre autres, Initiation à la traductique (2e édition) (L’Homme, 2008), Computer-Aided Translation Technology (Bowker, 2002) et La terminologie : principes et techniques (L’Homme, 2004). Vous pouvez en savoir plus sur le fonctionnement de TermoStat dans l’article Drouin, P. (2003) « Term Extraction using non-technical corpora as a point of leverage », Terminology 9(1): 99–115 et dans d’autres articles sur TermoStat indiqués sur la page Web de Drouin. (La thèse de Drouin, qui porte sur la création de l’outil, est aussi accessible sur cette page.)

 

 

Suivant : II. Préparation