Glossaire

Note : pour les références citées complètes, voir la bibliographie .

Analyse arborée : « Le calcul de la connexion lexicale ou de la distance intertextuelle, puis la représentation arborée de ce calcul, permettent d’évaluer et de visualiser la proximité ou l’éloignement des textes du corpus à partir de la mesure globale de leur vocabulaire commun ou exclusif » (Mayaffre 2011, p. 176 ; voir Luong et Mayaffre 2003).

Analyse factorielle par correspondance : Le principe de base d’une analyse factorielle par correspondance est l’étude des écarts entre un tableau de données réelles (un tableau de contingences*) et un tableau de données théoriques ou neutres, c’est-à-dire les données qui devraient apparaître si tout était statistiquement neutre au sein du corpus envisagé. Dans ce tableau, la fréquence théorique de chaque mot est donc proportionnelle au volume de chaque texte et au nombre total d’emplois de chaque mot. Comme les textes ne respectent pas cette neutralité, il y a des écarts entre les deux tableaux de données, réelles et théoriques. C’est ce que l’on appelle des écarts bruts. Mais ces derniers, pour devenir significatifs, doivent être pondérés en fonction de la taille des textes et de l’importance relative des mots dans chaque texte. L’analyse factorielle par correspondance permet, par une série de mises en facteurs de ces écarts, fondés sur des calculs complexes, de dégager les différentes oppositions entre les textes et les mots. Ces oppositions sont relatives, car elles ne portent que sur le corpus retenu. Les résultats obtenus peuvent être schématisés sous la forme d’un graphique où l’on peut situer la position des textes et des mots les uns par rapport aux autres. La proximité ou la distance entre textes et mots est une information de première importance. Le premier facteur représente les oppositions les plus nettes, suivi du deuxième, du troisième… En général, l’analyse n’est plus très significative au-delà du quatrième facteur (sauf exception). À partir de ces calculs, il est possible de construire une représentation graphique, qui présente les facteurs deux par deux.

Catégorème : Mots qui ont une signification propre, par opposition aux « mots-outils ». Mais en réalité, l’analyse est évidemment possible – et souhaitable – sur tous les éléments d’un texte et pas seulement sur le lexique plein. Pour un exemple éclairant, voir Christiane Marchello-Nizia, « Savoir lire ce qui est écrit : le rôle des démonstratifs et des possessifs dans le français médiéval », dans Jean-Philippe Genet (dir.), Langue et histoire, op. cit., p. 51-61. Sur les catégories médiévales, voir notamment Laurent Cesalli, « Faut-il prendre les mots au mot ? Quelques réflexions logico-sémantiques sur le pouvoir des mots », dans Bériou et alii, 2014, p. 23-47.

Classification ascendante hiérarchique (CAH) : c’est un autre outil permettant de visualiser les regroupements et les oppositions au sein d’un corpus, au moyen de classes :

« Le principe de la CAH est de rassembler des individus selon un critère de ressemblance défini au préalable qui s’exprimera sous la forme d’une matrice de distances, exprimant la distance existant entre chaque individu pris deux à deux. Deux observations identiques auront une distance nulle. Plus les deux observations seront dissemblables, plus la distance sera importante. La CAH va ensuite rassembler les individus de manière itérative afin de produire un dendrogramme ou arbre de classification. La classification est ascendante car elle part des observations individuelles ; elle est hiérarchique car elle produit des classes ou groupes de plus en plus vastes, incluant des sous-groupes en leur sein » (définition du site Analyse-R).

On la représente en général sous forme de dendrogrammes ou arbre hiérarchique, pour lequel « la longueur des branches de l’abre est proportionnelle aux valeurs de l’indice d’agrégation » (ADT, p. 258).

Concordance : C’est la fonctionalité la plus commune, qui se retrouve dans tous les logiciels de traitement. La concordance « désigne communément une procédure qui relève et affiche de façon synthétique tous les contextes d’occurrence d’un mot ou d’une expression (le pivot), en mettant en évidence typographiquement l’occurrence du pivot dans chaque extrait » (ADT, p. 95).

Cooccurrence : Elle « explore le voisinage élargi de l’unité, c’est-à-dire les unités qui adviennent fréquemment avec l’unité en question, dans le même contexte, mais pas forcément immédiatement avant ou après » (ADT, p. 17). « Pour établir une cooccurrence, il faut (i) avoir défini un voisinage, un contexte, de sorte que deux mots sont dits « cooccurrents » lorsqu’ils apparaissent ensemble dans un tel contexte ; (ii) un indice peut alors être calculé, qui évalue le caractère plus ou moins remarquable de la cooccurrence, d’un point de vue statistique » (ibid., p. 113).

Fouille de données : « La fouille de données (data mining) vise à extraire à partir de grands volumes de données de l’information cachée et potentiellement exploitable » (ADT, p. 24). Son objet est différent de celui de l’ADT : « L’ADT vise essentiellement à l’interprétation des données et cherche à construire un sens, tandis que la fouille de textes a une visée applicative et produit typiquement une vue synthétique devant récapituler le contenu informatif extrait des textes. En bref, dans la fouille de textes, il n’y a pas de retour au texte et les volumes de données sont différents (ADT, p. 25-26). Certains travaux récents en histoire médiévale ont toutefois tenté de combiner les deux approches, notamment ceux d’Alain Guerreau et de Nicolas Perreaux.

Hapax : formes qui n’apparaissent qu’une seule fois dans un corpus. Elles constituent généralement entre un tiers et la moitié du vocabulaire du dit corpus, quelle que soit sa taille.

Lemmatisation : « Opération consistant à regrouper les formes occurrentes d’un texte ou d’une liste sous des adresses lexicales » (Trésor de la langue française), autrement dit les lemmes. Si elle est désormais pratiquement automatique pour de nombreuses langues contemporaines, et que les débats qui ont fait rage dans les années 1980-1990 sont aujourd’hui résolu par l’annotation, il n’en est pas de même pour les langues anciennes où elle est un préalable indispensable (voir Mairey 2011).

Lexicométrie : C’est la discipline la plus ancienne, « centré[e] sur les décomptes des mots et l’étude des vocabulaires dans une perspective lexicale » (ADT, p. 38).

Logométrie : « La logométrie est une méthode d’analyse des textes assistée par ordinateur qui permet de décrire qualitativement et quantitativement le contenu linguistique d’un corpus. […] C’est de l’articulation de ces deux dimensions du dialogue entre textes et statistiques, du va-et-vient constant et réflexif entre lettres et chiffres, que la logométrie tire sa force. Pratiquement, la démarche logométrique la plus classique repère les traits saillants des discours grâce aux outils quantitatifs et à une approche macro ou globale du corpus, puis permet de « redescendre » localement dans le corpus par une lecture micro et un retour systématique au texte grâce aux outils documentaires qualitatifs » (Mayaffre, p. 168). Les frontières avec la textométrie (voir ci-dessous), sont pour le moins poreuses.

Mots « vides » ou mots-outils : Unités de la grammaire – déterminants, prépositions, pronoms, conjonctions (ADT p. 53). Voir Catégorèmes.

N-gramme : Succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal, les éléments pouvant notamment être des mots ou des lettres. Les n-grammes à la fois et entre nous sont respectivement d’ordre trois et deux (Wiktionnaire).

Polycooccurrences : Elles « résultent d’un calcul étendu des cooccurrences spécifiques. Succinctement dit, il s’agit, à partir d’un premier constat de coïncidence contextuelle, de réitérer l’analyse sur la base du système cooccurrentiel déjà détecté et ce jusqu’à épuisement des originalités lexicales dans les contextes explorés. […] la méthode polycooccurrentielle met en évidence une association simultanée entre A, B et C (Martinez 2012).

Regexp : Il s’agit des expressions régulières, c’est-à-dire des chaines de caractères « que l’on appelle parfois un motif et qui décrit un ensemble de chaînes de caractères possibles selon une syntaxe précise » (Wikipédia).

Segments répétés : « Un segment répété (SR) est une séquence d’unités adjacentes récurrentes. […] Ce sont des unités endogènes au corpus, c’est-à-dire qu’une séquence se répétera dans un corpus, tandis qu’on ne la relèvera que peu ou prou dans un autre » (ADT, p. 73).

Spécificités : Le modèle statistique des spécificités, permet de « calculer les valeurs d’une propriété […] dont le nombre d’apparition paraît le plus en surnombre (ou en sous-effectif) dans chaque partie, ou dans un sous-corpus (en relation avec son corpus parent) » (Manuel de TXM ; voir aussi Lafon 1980, Mayaffre 2011, p. 171).

Tableau de contingences : Ce sont « des tableaux de comptages obtenus par le croisement de deux variables nominales […]. Dans le cas particulier des tables lexicales (mots en lignes, textes en colonnes ou vice versa), xij pourra être le nombre d’occurrences du mot i dans le texte j. […] Ce type de tableau a la particularité de faire jouer un rôle identique aux lignes et aux colonnes » (ADT, p. 145)

TAL (traitement automatique des langues) : C’est « un domaine qui vise à formaliser les descriptions linguistiques dans la perspective du développement d’une application informatique » (ADT, p. 19).

Textométrie : « La textométrie est une discipline, dont les contours sont difficiles à établir, riches en méthodes et en approches. Elle permet principalement d’explorer les corpus textuels. Il s’agit de décrire, comparer, classer, analyser des ensembles de textes en utilisant des méthodes statistiques sans réduire le texte à un sac de mots » (Aouini 2018, p. 40) ; « Par rapport à la lexicométrie, qui conçoit le texte comme un ensemble de mots, la textométrie tient compte du tissu textuel, explorant tant la diversité des informations linguistiques et les résonnances fréquentielles ou cooccurrentielles des unités au fil du texte » (ADT, p. 11).

Topographie : Elle considère l’organisation topographique, autrement dit linéaire ou spatiale, des textes et des corpus. « La représentation topographique trouve une pertinence particulière sur les séries textuelles chronologiques (ou corpus diachroniques) » (Mayaffre,2007).

Web sémantique : L’expression « Web sémantique » a été inventée en 2001 par Tim Berners Lee dans son article « The Semantic Web » (Scientific American Magazine, May 2001, p. 29-37) « pour désigner une évolution du web qui permettrait aux données disponibles (contenus, liens) d’être plus facilement utilisables et interprétables automatiquement, par des agents logiciels. […] Le web sémantique part du principe que les données structurées (par exemple, les métadonnées contenues dans un catalogue de bibliothèque) sont déjà disponibles ; il propose un ensemble de techniques visant à les rendre plus utilisables » (définition de la BnF, en ligne : http://www.bnf.fr/fr/professionnels/anx_web_donnees/a.web_donnees_definitions.html).