Chargement...
 

Tutoriel sur TermoStat Web, niveau I

 


 

IV.   Évaluation de l'extraction

 

IV. Évaluation de l'extraction

 

  1. Une fois l’analyse terminée, parcourez la page Résultats et l’onglet Liste des termes pour vous familiariser avec les données fournies et l’organisation de celles-ci.

 

  

 

  1. La première colonne (Candidat de regroupement) affiche la forme lemmatisée (de base) identifiée par TermoStat (c'est-à-dire, l’unité ou la suite d’unités qui constituent le candidat dans sa forme canonique après le processus d’étiquetage utilisé par TermoStat). (Voir la note 1.)
  2. La colonne suivante (Fréquence) indique la fréquence du candidat terme identifié dans le fichier analysé, c'est à dire le nombre que fois qu'il apparaît dans le texte.
  3. La troisième colonne (Score (Spécificité)) affiche le résultat du calcul de spécificité que TermoStat utilise comme unité de mesure par défaut. (Voir la note 2.)
  4. La prochaine colonne (Variantes orthographiques) affiche les formes de l’unité identifiées par l’outil dans le texte lui-même (les formes non lemmatisées, certains types de variantes orthographiques).
  5. La dernière colonne (Matrice) affiche les catégories grammaticales des unités qui composent le candidat terme.

 

  1. Cliquez sur un des termes dans la liste Candidat de regroupement. Une nouvelle page, Contextes, s’ouvre pour vous permettre de consulter les différents contextes d’énonciation dans lesquels le candidat terme a été identifié, que ce soit pour une phrase (sous l’onglet Phrase) ou pour des chaines de caractères adjacentes (sous l’onglet Concordance).

 

 

  • Quelle utilité voyez-vous à cette fonction de TermoStat? Cette information peut-elle vous aider à déterminer s’il s’agit bien d’un terme?
  • Quelles autres informations à propos du candidat terme pouvez-vous identifier à l’aide de cette fonction?
  1. Fermez la page Contextes lorsque vous aurez terminé.

 

  1. De retour à l’onglet Liste de termes, cliquez sur les entêtes des colonnes pour trier les résultats en fonction de différents critères. Évaluez les différences observées dans l’ordre des candidats termes identifiés.
  • Y en a-t-il qui sont identifiés comme intéressants selon un critère (p. ex., la spécificité), mais pas selon un autre (p. ex., la fréquence)?
  • Quelle est l’utilité de trier les résultats selon la colonne Candidat regroupement? Quand et dans quels buts serait-il utile de le faire? Croyez-vous que l’utilité de ce tri serait la même dans une autre langue telle que l’anglais?

 

  1. Évaluez les résultats de l’extraction selon les critères établis en Introduction.
  • Quelle est la forme des unités identifiées? Leur catégorie grammaticale ou leur structure?
  • Quelle est la fréquence des unités identifiées? Les candidats identifiés sont-ils toujours fréquents?
  • Quelle est la précision de l’extraction? Combien des candidats proposés sont, à votre avis, vraiment des termes? Des candidats qui ne sont pas, strictement parlant, des termes peuvent-ils néanmoins être utiles pour des traducteurs?
  • Quel est le rappel de l’extraction? Les résultats présentent-ils tous les termes que vous aviez identifiés dans le texte? Si ces derniers apparaissent dans la liste de TermoStat, quel est leur rang? Ce rang correspond-il à celui que vous lui auriez attribué selon l’importance du terme? S’ils n’apparaissent pas dans la liste de TermoStat, pourquoi ont-ils été exclus, à votre avis?
  • D’après vous, l’identification des formes de termes complexes par TermoStat peut-elle présenter des difficultés? Quelles pourraient être les sources de ces difficultés? Malgré les problèmes, ces résultats sont-ils utiles?
  • Quel est l’effet de la lemmatisation sur la présentation des résultats? Sur la forme proposée pour le candidat? Sur la mesure de la fréquence?
  • Voyez-vous d’autres complications avec les candidats proposés par TermoStat? En regardant ces candidats ou leurs contextes, pouvez-vous identifier les sources de ces difficultés?

 

Notes


  1. Même si la forme plurielle d’un candidat terme est présente dans le fichier analysé, elle sera affichée sous sa forme singulière dans cette colonne.
  2. La valeur de spécificité résulte de la comparaison entre la fréquence de l’unité dans le texte analysé (corpus d’analyse) et un corpus de textes généraux (corpus de référence). Plus l’indice de spécificité est élevé, plus l’unité est propre au texte (c'est-à-dire, qu'elle y est particulièrement fréquente) et plus celle-ci est considérée comme étant susceptible d’être un terme.

    En cliquant sur le signe plus sous Spécificité, il est possible de réordonner les résultats selon d’autres méthodes de calcul. Pour plus de renseignements sur les différentes approches possibles, cliquez sur le lien Aide au coin supérieur droit de la page pour consulter le Guide de l’utilisateur

 

 

Précédent : III. Identification de candidats termes

Suivant : V. Évaluation des fonctions complémentaires