Glossaire
Note : pour les références citées complètes, voir la bibliographie.
Analyse arborĂ©e : « Le calcul de la connexion lexicale ou de la distance intertextuelle, puis la reprĂ©sentation arborĂ©e de ce calcul, permettent d’Ă©valuer et de visualiser la proximitĂ© ou l’Ă©loignement des textes du corpus Ă partir de la mesure globale de leur vocabulaire commun ou exclusif » (Mayaffre 2011, p. 176 ; voir Luong et Mayaffre 2003).
Analyse factorielle par correspondance : Le principe de base d’une analyse factorielle par correspondance est l’étude des écarts entre un tableau de données réelles (un tableau de contingences*) et un tableau de données théoriques ou neutres, c’est-à -dire les données qui devraient apparaître si tout était statistiquement neutre au sein du corpus envisagé. Dans ce tableau, la fréquence théorique de chaque mot est donc proportionnelle au volume de chaque texte et au nombre total d’emplois de chaque mot. Comme les textes ne respectent pas cette neutralité, il y a des écarts entre les deux tableaux de données, réelles et théoriques. C’est ce que l’on appelle des écarts bruts. Mais ces derniers, pour devenir significatifs, doivent être pondérés en fonction de la taille des textes et de l’importance relative des mots dans chaque texte. L’analyse factorielle par correspondance permet, par une série de mises en facteurs de ces écarts, fondés sur des calculs complexes, de dégager les différentes oppositions entre les textes et les mots. Ces oppositions sont relatives, car elles ne portent que sur le corpus retenu. Les résultats obtenus peuvent être schématisés sous la forme d’un graphique où l’on peut situer la position des textes et des mots les uns par rapport aux autres. La proximité ou la distance entre textes et mots est une information de première importance. Le premier facteur représente les oppositions les plus nettes, suivi du deuxième, du troisième… En général, l’analyse n’est plus très significative au-delà du quatrième facteur (sauf exception). À partir de ces calculs, il est possible de construire une représentation graphique, qui présente les facteurs deux par deux.
Catégorème : Mots qui ont une signification propre, par opposition aux « mots-outils ». Mais en réalité, l’analyse est évidemment possible – et souhaitable – sur tous les éléments d’un texte et pas seulement sur le lexique plein. Pour un exemple éclairant, voir Christiane Marchello-Nizia, « Savoir lire ce qui est écrit : le rôle des démonstratifs et des possessifs dans le français médiéval », dans Jean-Philippe Genet (dir.), Langue et histoire, op. cit., p. 51-61. Sur les catégories médiévales, voir notamment Laurent Cesalli, « Faut-il prendre les mots au mot ? Quelques réflexions logico-sémantiques sur le pouvoir des mots », dans Bériou et alii, 2014, p. 23-47.
Classification ascendante hiĂ©rarchique (CAH) : c’est un autre outil permettant de visualiser les regroupements et les oppositions au sein d’un corpus, au moyen de classes :
« Le principe de la CAH est de rassembler des individus selon un critère de ressemblance défini au préalable qui s’exprimera sous la forme d’une matrice de distances, exprimant la distance existant entre chaque individu pris deux à deux. Deux observations identiques auront une distance nulle. Plus les deux observations seront dissemblables, plus la distance sera importante. La CAH va ensuite rassembler les individus de manière itérative afin de produire un dendrogramme ou arbre de classification. La classification est ascendante car elle part des observations individuelles ; elle est hiérarchique car elle produit des classes ou groupes de plus en plus vastes, incluant des sous-groupes en leur sein » (définition du site Analyse-R).
On la reprĂ©sente en gĂ©nĂ©ral sous forme de dendrogrammes ou arbre hiĂ©rarchique, pour lequel « la longueur des branches de l’abre est proportionnelle aux valeurs de l’indice d’agrĂ©gation » (ADT, p. 258).
Concordance : C’est la fonctionalitĂ© la plus commune, qui se retrouve dans tous les logiciels de traitement. La concordance « dĂ©signe communĂ©ment une procĂ©dure qui relève et affiche de façon synthĂ©tique tous les contextes d’occurrence d’un mot ou d’une expression (le pivot), en mettant en Ă©vidence typographiquement l’occurrence du pivot dans chaque extrait » (ADT, p. 95).
Cooccurrence : Elle « explore le voisinage Ă©largi de l’unitĂ©, c’est-Ă -dire les unitĂ©s qui adviennent frĂ©quemment avec l’unitĂ© en question, dans le mĂŞme contexte, mais pas forcĂ©ment immĂ©diatement avant ou après » (ADT, p. 17). « Pour Ă©tablir une cooccurrence, il faut (i) avoir dĂ©fini un voisinage, un contexte, de sorte que deux mots sont dits « cooccurrents » lorsqu’ils apparaissent ensemble dans un tel contexte ; (ii) un indice peut alors ĂŞtre calculĂ©, qui Ă©value le caractère plus ou moins remarquable de la cooccurrence, d’un point de vue statistique » (ibid., p. 113).
Fouille de donnĂ©es : « La fouille de donnĂ©es (data mining) vise Ă extraire Ă partir de grands volumes de donnĂ©es de l’information cachĂ©e et potentiellement exploitable » (ADT, p. 24). Son objet est diffĂ©rent de celui de l’ADT : « L’ADT vise essentiellement Ă l’interprĂ©tation des donnĂ©es et cherche Ă construire un sens, tandis que la fouille de textes a une visĂ©e applicative et produit typiquement une vue synthĂ©tique devant rĂ©capituler le contenu informatif extrait des textes. En bref, dans la fouille de textes, il n’y a pas de retour au texte et les volumes de donnĂ©es sont diffĂ©rents (ADT, p. 25-26). Certains travaux rĂ©cents en histoire mĂ©diĂ©vale ont toutefois tentĂ© de combiner les deux approches, notamment ceux d’Alain Guerreau et de Nicolas Perreaux.
Hapax : formes qui n’apparaissent qu’une seule fois dans un corpus. Elles constituent gĂ©nĂ©ralement entre un tiers et la moitiĂ© du vocabulaire du dit corpus, quelle que soit sa taille.
Lemmatisation : « OpĂ©ration consistant Ă regrouper les formes occurrentes d’un texte ou d’une liste sous des adresses lexicales » (TrĂ©sor de la langue française), autrement dit les lemmes. Si elle est dĂ©sormais pratiquement automatique pour de nombreuses langues contemporaines, et que les dĂ©bats qui ont fait rage dans les annĂ©es 1980-1990 sont aujourd’hui rĂ©solu par l’annotation, il n’en est pas de mĂŞme pour les langues anciennes oĂą elle est un prĂ©alable indispensable (voir Mairey 2011).
LexicomĂ©trie : C’est la discipline la plus ancienne, « centrĂ©[e] sur les dĂ©comptes des mots et l’Ă©tude des vocabulaires dans une perspective lexicale » (ADT, p. 38).
Logométrie : « La logométrie est une méthode d’analyse des textes assistée par ordinateur qui permet de décrire qualitativement et quantitativement le contenu linguistique d’un corpus. […] C’est de l’articulation de ces deux dimensions du dialogue entre textes et statistiques, du va-et-vient constant et réflexif entre lettres et chiffres, que la logométrie tire sa force. Pratiquement, la démarche logométrique la plus classique repère les traits saillants des discours grâce aux outils quantitatifs et à une approche macro ou globale du corpus, puis permet de « redescendre » localement dans le corpus par une lecture micro et un retour systématique au texte grâce aux outils documentaires qualitatifs » (Mayaffre, p. 168). Les frontières avec la textométrie (voir ci-dessous), sont pour le moins poreuses.
Mots « vides » ou mots-outils : UnitĂ©s de la grammaire – dĂ©terminants, prĂ©positions, pronoms, conjonctions (ADT p. 53). Voir CatĂ©gorèmes.
N-gramme : Succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal, les éléments pouvant notamment être des mots ou des lettres. Les n-grammes à la fois et entre nous sont respectivement d’ordre trois et deux (Wiktionnaire).
Polycooccurrences : Elles « résultent d’un calcul étendu des cooccurrences spécifiques. Succinctement dit, il s’agit, à partir d’un premier constat de coïncidence contextuelle, de réitérer l’analyse sur la base du système cooccurrentiel déjà détecté et ce jusqu’à épuisement des originalités lexicales dans les contextes explorés. […] la méthode polycooccurrentielle met en évidence une association simultanée entre A, B et C (Martinez 2012).
Regexp : Il s’agit des expressions régulières, c’est-à -dire des chaines de caractères « que l’on appelle parfois un motif et qui décrit un ensemble de chaînes de caractères possibles selon une syntaxe précise » (Wikipédia).
Segments rĂ©pĂ©tĂ©s : « Un segment rĂ©pĂ©tĂ© (SR) est une sĂ©quence d’unitĂ©s adjacentes rĂ©currentes. […] Ce sont des unitĂ©s endogènes au corpus, c’est-Ă -dire qu’une sĂ©quence se rĂ©pĂ©tera dans un corpus, tandis qu’on ne la relèvera que peu ou prou dans un autre » (ADT, p. 73).
SpĂ©cificitĂ©s : Le modèle statistique des spĂ©cificitĂ©s, permet de « calculer les valeurs d’une propriĂ©tĂ© […] dont le nombre d’apparition paraĂ®t le plus en surnombre (ou en sous-effectif) dans chaque partie, ou dans un sous-corpus (en relation avec son corpus parent) » (Manuel de TXM ; voir aussi Lafon 1980, Mayaffre 2011, p. 171).
Tableau de contingences : Ce sont « des tableaux de comptages obtenus par le croisement de deux variables nominales […]. Dans le cas particulier des tables lexicales (mots en lignes, textes en colonnes ou vice versa), xij pourra ĂŞtre le nombre d’occurrences du mot i dans le texte j. […] Ce type de tableau a la particularitĂ© de faire jouer un rĂ´le identique aux lignes et aux colonnes » (ADT, p. 145)
TAL (traitement automatique des langues) : C’est « un domaine qui vise Ă formaliser les descriptions linguistiques dans la perspective du dĂ©veloppement d’une application informatique » (ADT, p. 19).
Textométrie : « La textométrie est une discipline, dont les contours sont difficiles à établir, riches en méthodes et en approches. Elle permet principalement d’explorer les corpus textuels. Il s’agit de décrire, comparer, classer, analyser des ensembles de textes en utilisant des méthodes statistiques sans réduire le texte à un sac de mots » (Aouini 2018, p. 40) ; « Par rapport à la lexicométrie, qui conçoit le texte comme un ensemble de mots, la textométrie tient compte du tissu textuel, explorant tant la diversité des informations linguistiques et les résonnances fréquentielles ou cooccurrentielles des unités au fil du texte » (ADT, p. 11).
Topographie : Elle considère l’organisation topographique, autrement dit linéaire ou spatiale, des textes et des corpus. « La représentation topographique trouve une pertinence particulière sur les séries textuelles chronologiques (ou corpus diachroniques) » (Mayaffre,2007).
Web sémantique : L’expression « Web sémantique » a été inventée en 2001 par Tim Berners Lee dans son article « The Semantic Web » (Scientific American Magazine, May 2001, p. 29-37) « pour désigner une évolution du web qui permettrait aux données disponibles (contenus, liens) d’être plus facilement utilisables et interprétables automatiquement, par des agents logiciels. […] Le web sémantique part du principe que les données structurées (par exemple, les métadonnées contenues dans un catalogue de bibliothèque) sont déjà disponibles ; il propose un ensemble de techniques visant à les rendre plus utilisables » (définition de la BnF, en ligne : http://www.bnf.fr/fr/professionnels/anx_web_donnees/a.web_donnees_definitions.html).