Présentation du logiciel

Identification

Corpus

Résultats

Présentation du logiciel

Auteur

Patrick Drouin
Professeur agrégé
Observatoire de linguistique Sens-Texte
Département de linguistique et de traduction
Pavillon Lionel-Groulx, local C-9120
Université de Montréal

C.P. 6128, succ. Centre-ville
Montréal (Québec) H3C 3J7
Canada

Tél. : 1+ (514) 343-7174
Téléc. 1+ (514) 343-2284
Contact patrick.drouin@umontreal.ca

Principe


TermoStat est un outil d'acquisition automatique de termes qui exploite une méthode de mise en opposition de corpus spécialisés et non-spécialisés en vue de l'identification des termes. La version disponible en ligne de TermoStat prend en charge le français, l'anglais, l'espagnol, l'italien et le portugais.

 

TermoStat reçoit un texte en entrée et retourne comme résultat principal une liste de candidats termes (CT) tirés du texte.

Un terme peut être simple (un mot) ou complexe (une suite de mots).

Chaque terme reçoit un score basé sur la fréquence du terme dans le corpus analysé, le corpus d'analyse (CA), et sa fréquence dans un autre corpus prétraité, un corpus de référence (CR).

 

Le corpus de référence français est d'environ 28 500 000 occurrences, qui correspondent à approximativement 560 000 formes différentes. C'est un corpus non technique composé d'articles de journaux portant sur des sujets variés tirés du quotidien français Le Monde et publiés en 2002.


Le corpus de référence anglais est d'environ 8 000 000 occurrences, qui correspondent approximativement à 465 000 formes différentes. C'est un corpus non technique dont la moitié provient d'articles de journaux portant sur des sujets variés tirés du quotidien montréalais The Gazette et publiés entre mars 1989 et mai 1989. L'autre moitié du corpus de référence anglais provient du British National Corpus (BNC).


Le corpus de référence espagnol est d'environ 30 000 000 occurrences, qui correspondent approximativement à 527 000 formes différentes. C'est un corpus non technique qui provient de l'Assemblée parlementaire européenne.


Le corpus de référence italien est d'environ 29 000 000 occurrences, qui correspondent approximativement à 517 000 formes différentes. C'est un corpus non technique qui provient de l'Assemblée parlementaire européenne.


Le corpus de référence portugais est d'environ 10 000 000 occurrences, qui correspondent approximativement à 542 000 formes différentes. C'est un corpus non technique.

 

La diversité de thèmes traités dans le corpus de référence est importante et nécessaire à notre démarche puisqu’elle vient minimiser l’uniformité thématique du CR. On ne peut, bien sûr, s’assurer entièrement qu'un corpus journalistique ou parlementaire ne comporte aucune thématique dominante. En effet, les articles qui composent le quotidien sont nécessairement liés à l’actualité et ainsi, à de grandes thématiques sociales. On pourrait aussi envisager de constituer un corpus plus équilibré à partir d’échantillons provenant de documents tirés de domaines différents et de documents plus généraux.

 

Fonctionnement


TermoStat fonctionne en trois étapes.

 

Étiquetage du texte

 

Les textes soumis à TermoStat sont dans un premier temps étiquetés par un logiciel d'étiquetage externe (TreeTagger). Le rôle de l'étiqueteur est de désambigüiser les mots qui peuvent recevoir plus d'une catégorie syntaxique. À la sortie de l'étiqueteur, tous les mots de chaque phrase du texte possèdent une étiquette syntaxique (nom, verbe, adjectif...).

 

Extraction des chaines de caractères correspondant à un ensemble de règles prédéfinies

 

À partir du texte étiqueté, TermoStat applique un filtre, à l'aide d'expressions régulières, pour extraire les mots ou les ensembles de mots qui correspondent aux différentes matrices syntaxiques prédéfinies. Les matrices les plus fréquemment rencontrées sont:

 

Nom : définition, dictionnaire
Nom + adj : champ sémantique, définition lexicale
Nom+ prep + nom : partie du discours, dictionnaire de langue
Nom+ prep + nom + adj : complément de objet direct, principe de compositionalité sémantique
Nom + part pass : variation liée, langue écrite
Nom + adj + prep + nom : structuration sémantique du lexique, approche sémiotique du langage
Adj : lexical, syntagmatique
Adv : paradigmatiquement, syntagmatiquement
Verbe : désambigüiser, lexicaliser
 

Pondération et sélection des candidats-termes

 

Chaque candidat terme reçoit un score en fonction de la méthode choisie lors de l'affichage des résultats. Les candidats termes ayant reçu les scores les plus hauts sont considérés comme les plus pertinents dans le texte. Un seuil d'acceptabilité permet d'exclure des mots ou expressions non considérées comme terminologiques dans le texte.

 

Type de tests


Afin de comparer les fréquences des candidats termes dans le corpus de référence (CR) et le corpus d’analyse (CA), nous utilisons la table de contingence suivante qui illustre les divers scénarios possibles.


Représentation des fréquences des unités
CorpusCRCATotal
Fréquence CTaba+b
Fréquences autres motscdc+d
Totala+cb+dN=a+b+c+d


Fréquence

La première mesure est directement observable dans les corpus, il s’agit de la fréquence brute. L’intérêt de cet indice pour l’évaluation du potentiel terminologique (PT) des candidats termes a été démontré par Daille et al. (1994). Les observations de ces auteurs confirment l’intuition des terminologues selon laquelle la fréquence représente un bon critère pour l’identification des termes dans les corpus spécialisés (OLF 1979).

Spécificité

Le calcul de spécificité a été proposé par Lafon (1980) afin de cerner le vocabulaire spécifique à un sous-corpus par rapport à l’ensemble d’un corpus.

log P(X=b) = log (a+b)! + log (N-(a+b))! + log (b+d)! + log (N-(b+d))! - log N! - log b! - log a! - log b! - log (N-(a+b+d))!

Cette approche permet de comparer le comportement des unités lexicales en fonction de critères variables. Nous adaptons légèrement la démarche en fusionnant le corpus de référence et le corpus d’analyse afin de vérifier si le lexique de ce dernier se comporte comme le lexique du premier. Le calcul des spécificités conduit à l’obtention d’un score qui facilite le classement des CT les uns par rapport aux autres.

X2

Le test du X2 a été utilisé par Rayson et al. (1997) pour l’analyse des conversations au sein du British National Corpus. Il a aussi été exploité par Kilgariff (2001) pour évaluer l’homogénéité des corpus.

X2 = N(ad-bc)2/((a+b)(c+d)(a+c)(b+d))

Nous l’utilisons ici tout simplement pour comparer les fréquences d’occurrence de CT. Les unités qui se démarquent le plus se verront attribuer une valeur plus élevée.

Log-likelihood

Proposé par Dunning (1993), le log-likelihood a été utilisé, entre autres, par Rayson et Garside (2000) pour la comparaison de corpus (et non des unités lexicales directement). Il est calculé de la façon suivante :

E1 = ((a+c)(a+b))/((a+c)(b+d))
E2 = ((b+d)(a+b))/((a+c)(b+d))
LL = 2*((a*ln(a/E1)) + (b*ln(b/E2)))

Tout comme pour les deux mesures qui précèdent, le log-likelihood conduit à l’obtention d’un poids. Plus l’écart entre la fréquence relative observée dans le corpus d’analyse et celle que l’on pourrait prédire à partir du corpus de référence est important, plus le score de vraisemblance est grand. Ainsi, un CT qui obtient un poids élevé est potentiellement plus intéressant d’un point de vue terminologique qu’un CT ayant une valeur plus basse.

Log-odds ratio

Le log-odds ratio a été utilisé entre autres par Evert (2004) dans son travail sur les collocations. Il se calcule ainsi :

log-odds = log((($b+0.5)*($c+0.5))/(($d+0.5)*($a+0.5)));


Plus le log-odds ratio est élevé, plus le CT est potentiellement intéressant d'un point de vue terminologique.



Références

Chung, T. M. (2003). «A Corpus Comparison Approach for Terminology Extraction», dans Terminology, 9(2), p. 221-246.
Daille B. et. al. (1994). «Towards automatic extraction of monolingual and bilingual terminology», Proceedings of the 15th conference on Computational linguistics, p. 515-521.
Dunning, T. (1993). «Accurate Methods for the Statistics of Surprise and Coincidence», dans Computational Linguistics, 19(1), p. 61-74.
Evert, S. 2004. http://www.collocations.de, visité le 9 décembre 2010.
Gillam, L.; M. TARIQ et K. AHMAD (2005). «Terminology and the Construction of Ontology», dans Terminology, 11(1), p. 55-81.
Kilgarriff, A. 2001. Comparing Corpora. International Journal of Corpus Linguistics 6(1), 1-37.
Lafon, P. (1980). «Sur la variabilité de la fréquence des formes dans un corpus», dans MOTS, no 1, p. 128-165.
Rayson, P. & Roger Garside (2000). Comparing Corpora Using Frequency Profiling. In Kilgarriff, Adam & Berber Sardinha, Tony (eds) Proceedings of the Workshop on Comparing Corpora. Hong Kong: Association for Computational Linguistics, 1-6.


Citation au sein d'un article


Drouin, Patrick (2003). "Term extraction using non-technical corpora as a point of leverage", In Terminology, vol. 9, no 1, p. 99-117.

Identification

 

Pour des mesures de confidentialité, pour permettre une personnalisation des analyses effectuées, mais également pour éviter des utilisations qui sortent du domaine de la recherche, TermoStat est désormais accessible seulement après l'ouverture d'une session. Toutes les pages sont redirigées vers la page d'identification si aucune session n'est ouverte. Les résultats ne sont consultables que par navigation dans le site (les bookmarks sont inopérants).


Ouverture

 

Pour ouvrir une session, il faut entrer le nom d'utilisateur et le mot de passe qui a été envoyé lors de l'inscription puis cliquer sur le bouton "Ouvrir Session". Les nouveaux utilisateurs doivent préalablement s'inscrire afin d'obtenir un mot de passe. L'inscription est accessible par le lien "Inscription". En cas d'oubli, le nom d'utilisateur et le mot de passe peuvent être envoyés par courriel à partir du lien "Nom d'utilisateur ou mot de passe oublié?".

Inscription


Pour s'inscrire à TermoStat et ainsi ouvrir une session, il faut remplir les champs suivants:

- un prénom et un nom

- le nom à utiliser (id) qui servira à l'ouverture de session (court et composé que de lettres).

- un mot de passe qui servira à l'ouverture de session (composé d'au moins 4 caractères).

- une adresse de courriel valide qui servira à l'envoi du mot de passe et du nom d'utilisateur en cas d'oubli.



Gestion du compte

 

Lorsqu’une session est ouverte, les informations du compte de l’utilisateur (prénom, nom, courriel, mot de passe) peuvent être modifiées en cliquant sur le nom d’utilisateur en haut à droite de l’écran.

Déconnexion

 

Pour mettre fin à une session TermoStat, il suffit de cliquer sur le lien "Déconnexion" en haut à droite de l'écran. Tous les résultats et les corpus seront conservés pour la prochaine utilisation de TermoStat.


Corpus


Analyse de corpus


Pour soumettre un nouveau corpus à TermoStat, il faut indiquer son emplacement à l'aide du sélecteur de fichiers, choisir la langue du corpus, choisir le type d'extraction (termes simples et/ou termes complexes) et lancer l'analyse. Tous les corpus soumis à TermoStat DOIVENT être en format TEXTE BRUT (pas de PDF, pas de Microsoft Word). Assurez-vous de les convertir avec Word, Adobe Acrobat ou tout autre logiciel approprié. Leur taille ne doit pas dépasser 30 mégaoctets. Pendant que TermoStat analyse le corpus, une barre de progression s’affiche; une fois le traitement terminé, les résultats de l’analyse apparaissent à l’écran.



Gestion de corpus


Tous les corpus analysés sous un même nom d'utilisateur sont listés dans la fenêtre des corpus. Chaque corpus est nommé par le nom du document d'analyse. Des informations de traitement du corpus sont disponibles en passant la souris sur l'icône de drapeau située au début de la ligne de chaque corpus (langue de traitement, type d'extraction, date, nombre de mots...).


Les corpus peuvent être supprimés de la liste en cliquant sur l'icône .


Résultats

 

TermoStat permet de consulter les résultats de l'analyse de chaque corpus selon plusieurs angles . Les onglets en haut du tableau permettent de passer d'un résultat à l'autre.

L'icône en haut à droite du tableau sert à télécharger les résultats (en format .txt) pour pouvoir les consulter dans un logiciel comme Excel.


Liste des termes

 

La liste des termes est la page de résultat standard. À l'ouverture de la fenêtre, les termes extraits du texte d'analyse sont listés et triés en fonction du score obtenu par chaque terme, de leur fréquence ou de leur matrice.


Le type de score à afficher (spécificité, X2, log-likelihood, log-odds ratio) peut être modifié en cliquant sur l'icône dans l'en-tête de la 3e colonne ("Score"). Il est possible de réordonner la liste en cliquant sur les 3 premiers en-têtes du tableau.


Pour chaque terme on retrouve les informations suivantes :

Candidat de regroupement

Le candidat proposé est la variante orthographique qui a subit le moins de modifications par rapport à la forme lemmatisée par TreeTagger . Cela implique que le candidat visible sera au pluriel si seule la forme plurielle est présente dans le texte. Ce choix a été fait pour éviter de proposer des lemmatisations non valides, spécialement sur des termes complexes. 

Fréquence

Le nombre d'occurrences dans le texte.

Poids

Le score attribué par le calcul sélectionné dans l'en-tête de la colonne "Score" (voir . Type de tests)

Variantes orthographiques

Les variantes orthographiques d'un candidat sont les différentes formes qu'il revêt dans le texte; la variation sur le genre et le nombre. 

Matrice

La matrice correspond à la suite de catégories grammaticales de chaque mot constituant le candidat.

 

Contexte

Le contexte de chaque candidat est accessible en cliquant sur le terme lui-même.


Une nouvelle fenêtre ou nouvel onglet s'ouvre, listant les phrases contenant le candidat terme (en caractères gras bleus) dans son contexte. Les onglets en haut de cette fenêtre permettent de passer de l'affichage des phrases à l'affichage de type concordance (key word in context). 


Nuage

 

Le nuage est la liste alphabétique des 100 termes dont le score est le plus élevé. L'impression de nuage est donnée par la différence de taille de caractère des candidats en fonction du score qu'il leur a été attribué.


Statistiques

 

Cette fenêtre affiche le nombre de candidats sélectionnés pour le texte ainsi que le nombre de candidats pour chaque matrice. Les 10 premiers termes correspondant à chaque matrice sont visibles en cliquant sur le nombre.


Structuration

 

La page des résultats de la structuration présente la liste des candidats dans un tableau et, pour chacun d'eux en vis-à-vis, la liste des candidats qui l'incluent (les liens renvoient aux entrées dans le même tableau).

 

Candidat de regroupement
Fréquence
Terme inclus
base 
23
base de données - base militaire
données 
17
base de données - données brutes
base de données 
4
 

 

La colonne 2 donne la fréquence du terme. Seuls les CT qui ont une fréquence égale ou supérieure à 4 sont affichés.

 

Les candidats termes qui possèdent une information de structuration sont suivis d'une icône cliquable qui ouvre une nouvelle fenêtre ou un nouvel onglet sur la page de décomposition.

 

 

Page de décomposition

La page de décomposition est un tableau dont la première ligne est le candidat terme en entrée. Les lignes suivantes présentent les mots en relation classés dans les catégories suivantes:

 

Tête / Expansion : les candidats termes construits avec une préposition sont divisés en tête et expansion.

Apposition gauche/droite : les candidats termes composés de deux noms apposés sont divisés en apposition gauche et droite.
 

Adjectif : les adjectifs qui qualifient la tête du candidat.


Termes en relation : les termes qui forment un terme complexe avec le candidat.
 

 

base de données relationnelle
Tête  base
 base de données
Expansion  données
 données relationnelles
Apposition gauche  
Apposition droite  
Adjectif  relationnelle
 
Termes en relation  informatique
 

Seuls les termes en relation dont le score de log-likelihood est supérieur à 3,84 et dont la fréquence est égale ou supérieure à 4 apparaissent. 

 

Graphe

Le lien sémantique entre deux termes liés syntaxiquement n'est pas toujours présent ou explicite. La relation entre deux termes qui partagent d'autres termes en commun peut être porteuse de sens ou non. Afin de dessiner un graphe de termes ayant une relation syntaxique partagée avec d'autres et que ce graphe soit à la fois affichable, consultable et navigable, le graphe est limité à trois niveau (un terme(T1) -> un terme(T2) -> un terme(t3)) et ne prend en considération que les termes qui ont un score de log-likelihood supérieur à 3,84 et dont la fréquence est égale ou supérieure à 4. De plus, si un terme de deuxième niveau est en relation avec plus de 10 termes, ceux-ci ne sont pas affichés.

 

Il est possible de générer le graphe en cliquant sur l'icône à droite du candidat terme en entrée dans la page de décomposition. La page de graphe est également un tableau dont le côté droit est une image du graphe généré et le gauche la liste des termes présents dans le graphe. Les termes sont cliquables et ouvrent la page de décomposition. À l'intérieur du graphe, les termes sont cliquables et génèrent le graphe correspondant (avec Firefox et Opera seulement). Le graphe peut être téléchargé (en format .gif) en cliquant sur l'icône en haut à droite de l'écran.

 

Dans le graphe, les arêtes rouges montrent les cycles, c'est-à-dire les cas où un candidat est lié avec un terme qui est également lié avec un autre terme alors que ce dernier entretient une relation avec le premier.



Bigrammes

 

Cette fenêtre présente les bigrammes les plus forts du texte analysé. Ces bigrammes sont composés d'un verbe et d'un nom (sujet ou objet du verbe). Ils sont accompagnés de leur fréquence et d'un score (log-likelihood) qui donne la force de l'association entre les mots qui les composent. Il est possible de réordonner les colonnes en cliquant sur les en-têtes. Cliquer sur les verbes ou les noms ouvre leur fenêtre de contextes; cliquer sur l'icône mène à leur page de décomposition et à leur graphe, tel qu'expliqué dans la section Structuration ci-dessus.