Pour un usage raisonné de la textométrie en histoire (médiévale)

Avertissement : cette réflexion a été présentée lors du dernier séminaire de Jean-Philippe Genet à la Sorbonne en mai 2013. Elle a été légèrement remaniée à l’occasion de mon habilitation à diriger des recherches soutenue en 2017.

On trouvera les références citées et d’autres dans la bibliographie ainsi que des définitions complémentaires dans le glossaire.

Introduction

Depuis quelques années, les outils textométriques[1], que les historiens pourraient employer dans leurs recherches ont connu des développements majeurs, qui permettent de lever une limite essentielle pour qui n’est pas informaticien ou statisticien : la nécessité d’un apprentissage long dans ces domaines. Pour peu que l’on ait un ordinateur, et ce quel que soit le système utilisé (windows, mac, linux), il est désormais possible d’effectuer en quelques clics des calculs très sophistiqués[2]. Cela ne dispense pas, bien entendu, de connaître les principes mis en œuvre par ces logiciels et les tenants et aboutissants épistémologiques et méthodologiques. Mais dans ce domaine également, nous disposons désormais de présentations accessibles, conçues par des historiens ou d’autres spécialistes des sciences sociales[3]. Pourtant, la textométrie reste peu employée par les historiens en général et les médiévistes en particulier[4]. Et elle est même encore, parfois, l’objet d’une franche hostilité, si ce n’est d’un mépris complet. Les réflexions qui suivent ne constituent ni un guide pratique (même si certaines notions et opérations sont expliquées dans le glossaire ci-dessous), ni un panorama des possibilités offertes[5] ; mais plutôt une tentative de réponse à la défiance prononcée de nombre de mes collègues, à partir d’une expérience personnelle de longue fréquentation de ces outils. Car il faut bien se poser la question de la pertinence d’une méthode lorsqu’elle est ignorée et/ou critiquée par la majorité de la communauté, alors même que cette dernière dispose enfin d’outils à la fois performants et accessibles, ainsi que de réflexions raisonnées sur les avantages et les inconvénients de ladite méthode. Les réticences sont à mon sens de plusieurs ordres, intimement liées : épistémologiques, méthodologiques et purement pratiques. Mes remarques seront regroupées en trois temps qui porteront respectivement sur la question des compétences ; sur celle de l’investissement ; et enfin sur la nécessité d’un usage raisonné de la textométrie.

Même si les outils sont désormais d’un accès bien plus aisé, les connaissances et les savoirs à acquérir, restent, il faut le reconnaître, multiples – de nature à la fois épistémologique et méthodologique.

Problèmes épistémologiques

Un premier aspect est d’ordre purement épistémologique : il concerne les rapports entre histoire et linguistique, parfois houleux[6]. En ce domaine, on constate parfois la présence de certains clichés surprenants de la part de jeunes (et de moins jeunes) chercheurs. Pour ne prendre qu’un exemple récent, Benjamin Weber, dans sa thèse sur la croisade pontificale au xv^e siècle, a affirmé dans son introduction :

« Ces impasses [il évoque les problèmes de définition du mot croisade] naissent d’une vision trop statique basée sur les grands principes de la linguistique structuraliste : un concept devrait être défini par rapport aux autres du même champ lexical, en pointant des éléments constitutifs communs à toutes les réalités qu’il recouvre. On sait pourtant – depuis Abélard ! – que le langage ne sert pas à désigner le réel, mais à le classifier »[7].

La question du statut du langage est évidemment primordiale, mais l’analyse est ici un peu grossière. À la décharge des historiens, toutefois, la linguistique est une science complexe et foisonnante, souvent déchirée par des positions épistémologiques radicalement opposées.

Pour ce qui concerne les concepts dont relève la textométrie, quelques jalons sont toutefois assez aisément repérables, au moins pour la France. Dans les années 1960, les premiers historiens qui ont employé la statistique lexicale étaient largement influencés par la linguistique structuraliste de Ferdinand Saussure[8], mâtinée, parfois, des perspectives offertes par la pragmatique – qui insiste sur la question de l’énonciation[9] –, par la sémiologie[10] et la sémantique[11]. Dans le même temps, des historiens, surtout modernistes et contemporanéistes, se sont également intéressés à l’analyse de discours[12]. L’ouvrage fondateur en la matière est celui de Régine Robin, Histoire et linguistique, paru en 1973 mais toujours pertinent[13]. C’est durant cette période que sont mises au point les principales opérations de statistique lexicale (spécificités, cooccurrences, analyse factorielle par correspondance…), bien rôdées dans les années 1980. Le foyer le plus important, à cet égard, est sans doute le Centre de recherche de lexicologie politique de l’école normale supérieure de Saint-Cloud[14]. À partir des années 1980 et surtout des années 1990, toutefois, la lexicologie est l’objet d’un certain désenchantement, lié tout autant à une méfiance grandissante envers les excès du structuralisme qu’à une désillusion certaine vis-à-vis de l’histoire quantitative[15].

Mais les réflexions se sont poursuivies et, à ce jour, les avancées épistémologiques les plus importantes – du point de vue de l’historien – me paraissent venir de la linguistique de corpus, accompagnée d’un renouvellement de la sémantique requalifiée en « sémantique interprétative », explicitée et farouchement défendue en premier lieu par François Rastier[16]. Ce dernier a largement revisité la théorie saussurienne, à la lumière, notamment, de l’édition des écrits de Saussure au début des années 2000, en insistant sur la complémentarité, davantage que sur l’opposition, entre la langue et la parole :

« Définir la langue tant par ses instances que par ses performances, en assumant ainsi la dualité entre langue et paroles, telle qu’elle a été définie par Saussure et oblitérée par les éditeurs du Cours de linguistique générale, c’est refuser en somme les séparations récurrentes entre l’Être et l’apparence, la puissance et l’acte, le rationnel et le réel, etc. : en bref, sortir de la métaphysique qui a toujours informé la philosophie du langage »[17].

Il s’agit bien de dépasser l’opposition fondamentale entre « la langue comme système de forme et la langue comme produit d’une culture[18] ». Dans ce cadre général, le corpus, dans ses différentes échelles, devient une clé d’analyse majeure. François Rastier distingue en effet le corpus-système, qui correspond au système linguistique dans son ensemble ; le corpus de référence, qui doit être sélectionné par rapport à une « archive », ce qu’il appelle la « langue historique » ; et des corpus de travail, élaborés dans le cadre d’une problématique et contrastés par rapport au corpus de référence.

En outre, son approche sur la notion même de texte me paraît importante pour l’historien des textes, d’autant qu’elle prend la direction d’une sémiotique générale des cultures :

« Un approfondissement de la problématique du texte pourra sans doute contribuer à intégrer la linguistique dans une sémiotique générale des cultures. Les objets culturels se signalent par leur complexité et le caractère problématique de leur interprétation : ils sont produits dans des pratiques et des situations différenciées, et mettent généralement en jeu plusieurs systèmes et normes […]. Parmi les objets culturels, les textes sont des performances sémiotiques parmi les plus complexes et exemplaires à ce titre »[19].

Les interactions et les dynamiques sont ici cruciales, et leur étude permet d’établir des comparaisons et des contrastes pour avancer dans la compréhension d’un ou plusieurs systèmes, mais aussi de leur évolution :

« La linguistique de corpus participe du programme comparatiste entre langues, en pratiquant par exemple les alignements de corpus pour constituer des “mémoires de traduction” ; mais surtout, elle permet de poursuivre ce programme au sein même de chaque langue, en comparant entre eux les discours, les genres et les textes […]. La sémantique différentielle réunit les conditions pour participer à ce projet de caractérisation contrastive qui a l’ambition de restituer la complexité et la diversité interne des langues et des textes »[20].

Pour l’historien, surtout celui des temps reculés, qui ne dispose que de fragments du système et doit sans cesse comparer et cartographier ces fragments pour tenter d’en comprendre le sens et les évolutions (l’un n’allant pas sans l’autre) en les constituant en corpus toujours problématisés[21], ces réflexions épistémologiques me semblent essentielles, d’autant qu’elles prennent en compte un mouvement de fond, la croissance exponentielle des corpus numériques et le développement de leur annotation, phénomènes auxquels les historiens doivent désormais largement se confronter. Avec l’expansion (que dis-je, le big bang !) des corpus numérisés, certains chercheurs en sciences humaines se sont d’ailleurs lancés dans le data mining – la fouille de données – au sein de très grands ensembles textuels, comme la Patrologia latina. La fouille de données pose toutefois, à mon sens, la question de la définition même d’un corpus historique, qu’il faut prendre garde à problématiser[22].

Problèmes pratiques et méthodologiques

Si les enjeux épistémologiques de la textométrie paraissent aujourd’hui assez clairs[23], ce qui apparaît d’autant plus indispensable avec le développement des corpus numériques, il n’en reste pas moins que sur un plan pratique et méthodologique, l’acquisition de compétences en statistiques et en informatique constitue une limite infranchissable pour certains. Ne nous leurrons pas, la science des statistiques est complexe et il est indispensable d’en comprendre certains aspects, et en tout cas ses grands principes même si, en fin de compte, c’est la machine qui effectue les calculs. Toute la question est de savoir ce que l’on a besoin de comprendre et ce que l’on peut laisser de côté. Or, il n’est pas nécessaire d’être un statisticien confirmé. Je serais, pour ma part, incapable de délivrer un enseignement pur en statistiques. Mais je suis capable d’expliquer à peu près clairement ce qu’est une factorialisation, même si je ne comprends pas tout le détail des calculs. En outre, on l’a vu, il existe des « guides » pour les historiens qui fournissent l’essentiel. Pourtant, il me semble que c’est sans doute, pour certains de mes collègues, l’aspect le plus difficile à appréhender dans le cadre, peut-être en grande partie inconscient, de l’opposition binaire entre lettres et mathématiques ou, pour reprendre la formule de François Rastier, entre sciences et littérature, opposition qui constitue à ses yeux une exception française[24]. De fait, j’ai pu mesurer au cours de discussions informelles à quel point nombre de médiévistes sont rétifs à l’idée d’appliquer des statistiques à des textes médiévaux, non seulement parce qu’ils n’aiment pas les statistiques, mais aussi parce qu’ils considèrent que le fait d’appliquer une analyse quantitative à des œuvres qu’ils chérissent (le plus souvent) relève de la haute trahison. La philologie oui, la statistique textuelle non…

Cette attitude vis-à-vis des statistiques, mais aussi des compétences informatiques n’a pas toujours été considérée comme un obstacle méritant que l’on s’y arrête. On peut là citer Alain Guerreau à propos de l’acquisition de connaissances informatiques dans un article portant sur le traitement des textes anciens en série, paru dans le Bulletin du centre d’études médiévales d’Auxerre :

« Pour les timorés, précisons ceci. L’apprentissage des regexp[25] requiert une journée (au grand maximum deux), l’apprentissage de perl ou de python demande quatre ou cinq jours pour maîtriser les principales fonctions (une semaine en comptant large). Autrement dit : personne ne peut dire “c’est trop long” ou “c’est trop compliqué pour moi”, ce n’est ni long ni compliqué »[26].

Certes, cette affirmation doit être modulée en fonction de l’énergique optimisme d’Alain Guerreau. Toutefois, il me semble que, dans une certaine mesure, ce type d’affirmation peut s’avérer contreproductif. Une partie de la solution passe au contraire, selon moi, par un effort pédagogique constant, y compris sur le plan de la conception des logiciels, dans lesquels il paraît indispensable d’introduire de la convivialité. De fait, cette approche est développée de manière croissante pour certains logiciels récents : c’est le cas de PALM, « Plateforme d’analyse linguistique médiévale », conçue par Mourad Aouini et développée en collaboration avec des linguistes et des historiens, dans le cadre du projet européen Signs and States de Jean-Philippe Genet (2011-2014)[27] ; mais aussi de TXM qui, s’il reste relativement complexe, fait l’objet de nombreux efforts de formation.

Il est évident que l’équilibre est fragile entre la complexité réelle d’une partie au moins des compétences nécessaires et la convivialité d’une interface, mais ce n’est pas non plus un problème insurmontable, si certains veulent bien faire l’effort de ne pas mépriser ceux qui ne sont pas naturellement à l’aise… Toutefois, ce constat soulève le problème plus large de l’apprentissage des méthodes statistiques et/ou informatiques pour les étudiants, et il faut souligner que cela reste un vrai problème, puisqu’il existe très peu de formations en la matière pour les historiens ; cela risque de ne pas s’arranger dans le cadre des récentes réformes visant à découper les enseignements en master et à réduire drastiquement le nombre d’années de thèse[28].

La question des compétences statistiques et informatiques est naturellement liée à la question du choix des logiciels et à celle de leur maîtrise. Pour la textométrie spécifiquement, le problème de la multiplicité de ces logiciels est réel, d’autant qu’ils ne font pas tous exactement la même chose. Depuis les années 1980, les principaux logiciels étaient Hyperbase, développé par Étienne Brunet[29] ; Lexico3, développé par André Salem[30] ; et Weblex (l’ancêtre de TXM), développé par Serge Heiden ; s’y est ajouté, à la fin des années 2000, Analyse, développé à l’université Paris 1[31]. À l’exception de ce dernier, qui est un logiciel purement statistique, les trois autres sont plus complémentaires que redondants, même si tous fournissent globalement les mêmes fonctions de base, en particulier les concordances et les spécificités. Par exemple, Hyperbase se prête davantage à l’analyse par environnement thématique[32] et Lexico 3 à celle des segments répétés[33].

Le choix des logiciels est donc lié à plusieurs facteurs : leur accessibilité, le temps d’apprentissage qu’ils nécessitent, ainsi que la sélection des outils nécessaires pour appréhender tel ou tel corpus. Mais ce dernier facteur dépend aussi des deux premiers. L’apparition de TXM, qui a l’insigne avantage d’être accessible pour tous les systèmes d’exploitation et qui dispose de très nombreuses possibilités, va sans doute simplifier considérablement la question – même s’il nécessite, comme les autres, un temps d’apprentissage. En outre, TXM est conçu en priorité pour des corpus annotés en xml et de nombreuses fonctions permettent d’exploiter les annotations, dont la généralisation constitue bien sûr la grande nouveauté de ces deux dernières décennies. Les traitements textométriques sont désormais, soulignons-le à nouveau, beaucoup plus accessibles. Cela dit, changer de logiciel soulève de nouvelles questions : dans quelle mesure le biais induit par des fonctions plus ou moins différentes influe-t-il sur l’analyse ? Ce n’est pas anecdotique car changer de mode de calcul peut évidemment changer l’interprétation. Néanmoins, certains modes de calculs légèrement différents donnent des résultats très proches. C’est le cas, en particulier, de l’environnement thématique dans Hyperbase et du calcul des cooccurrences dans TXM.

Par ailleurs, il est sans doute désormais plus aisé de choisir les opérations textométriques selon son corpus de travail et ses problématiques. En ce qui me concerne, je n’utilise pas tous les outils disponibles de la textométrie, loin de là, et ce d’autant que je travaille surtout sur les « mots pleins » (les catégorèmes selon la classification médiévale) dans des corpus relativement restreints – en tout cas au regard de corpus gigantesques comme la Patrologia latina. Jusqu’à présent, j’ai essentiellement employé les analyses factorielles par correspondances d’une part, qui permettent de percevoir les principales oppositions relatives au sein d’un corpus ; et les concordances et les contextes de termes donnés d’autre part, qui permettent une étude fine au niveau d’un corpus, mais aussi au sein d’un texte donné. J’ai longtemps employé les cooccurrences de manière plus détournée, par le biais de l’environnement thématique d’Hyperbase ; mais l’usage de TXM me conduit désormais à les exploiter différemment. J’ai laissé de côté, en revanche, les classifications, ou encore la topologie. Les classifications, qui permettent de construire des lexicogrammes (c’est-à-dire des arbres lexicaux) à partir des cooccurrences d’un ou plusieurs termes, sont certes jugées très prometteuses par certains (notamment par Damon Mayaffre[34]), mais ne m’ont pour l’instant pas tout à fait convaincue pour une raison tout à fait pragmatique : la lecture de ces lexicogrammes est pour moi tout à fait contre-intuitive. Quant à la topologie, qui considère l’organisation topographique des textes et des corpus, elle me semble surtout pertinente pour comparer de grandes séries chronologiques ou plusieurs états d’un même texte, ce qui la situe un peu en dehors de mes préoccupations[35]. On le voit, les méthodes sont variées et cette variété même permet de répondre à des problématiques historiques de différentes sortes. Pourtant, lorsqu’elles sont critiquées, elles sont généralement considérées comme un tout informe.

L’argument généralement le plus souvent mis en avant pour justifier le rejet des méthodes textométriques est qu’elles ne révèlent rien de plus qu’une lecture attentive des textes et qu’il s’agit donc d’une perte de temps. La question du temps n’est certes pas anodine. Lorsque j’ai commencé à me frotter à la statistique textuelle, au milieu des années 1990, la méthode artisanale était de rigueur pour les textes médiévaux. La lemmatisation d’une langue non standardisée – le moyen anglais en l’occurrence – devait être faite à la main et cela m’a effectivement à l’époque pris beaucoup de temps. En corollaire, il fallait – et il faut toujours – compter avec l’instabilité textuelle, inévitable dans une culture manuscrite[36]. Certes, celle-ci ne se pose que lorsqu’un texte est conservé dans plus d’une copie, ce qui est par exemple le cas pour l’œuvre la plus importante de mon corpus de thèse, Piers Plowman, poème allitératif anglais du dernier tiers du xiv^e siècle. Cette œuvre constitue un exemple extrême d’instabilité textuelle, dans la mesure où il en subsiste plusieurs versions dont la rédaction s’étale sur plusieurs décennies, et où les différences mêmes à l’intérieur de ces versions sont très nombreuses. En caricaturant à peine, chaque copie (et l’on en compte plus d’une cinquantaine subsistante) représente une version unique du poème[37]. Il faut donc, pour chaque texte, effectuer des choix qui demandent, là aussi, du temps, même si ces choix sont dépendants des éditions ou des manuscrits disponibles.

Une autre activité chronophage est la préparation du corpus en vue de son traitement. D’une part, il y a bien sûr tout le problème de la saisie des textes ou au moins de leur nettoyage puisque l’on dispose d’un nombre exponentiel de textes numérisés. D’autre part, le corpus doit être codé pour pouvoir être traité ; or, le codage a longtemps différé de manière significative selon les logiciels utilisés. Soulignons toutefois que les évolutions récentes vont dans le sens d’une simplification du codage (en dehors de la question de l’annotation en xml).

Se pose également la question de la lemmatisation. Il s’agit d’une opération indispensable pour les langues qui n’ont pas une orthographe standardisée et/ou pour les langues à déclinaison[38]. Là encore, des changements profonds sont en cours puisque l’objet même de Palm est de permettre la lemmatisation semi-automatique des textes médiévaux, en pourvoyant en outre une annotation morpho-syntaxique légère, mais précieuse (pour l’instant, les langues disponibles sont le latin, le moyen français et le moyen anglais, mais il est tout à fait possible d’en implémenter d’autres). En outre, les formats d’export de Palm sont multiples – on peut directement exporter vers Hyperbase, vers Analyse ou vers txm – ce qui constitue une économie de temps non négligeable, même si tout n’est pas réglé bien sûr, à commencer par la question de l’instabilité textuelle. Par ailleurs, il ne faut pas négliger, non plus, le temps consacré à l’activité d’annotation.

À quoi ça sert ?

Ces considérations pratiques mènent inévitablement à la question fondamentale : à quoi cela sert-il ? Naturellement, tout dépend de l’objet sur lequel on travaille. De même que, pour les sources archéologiques, l’usage de l’archéométrie à tout bout de champ n’est pas forcément utile et que ses techniques doivent être employées de manière raisonnée[39], de même, la textométrie n’est probablement pas profitable pour n’importe quel type d’analyse de textes. De manière très générale, elle est particulièrement pertinente pour l’étude comparée de textes ou de séries de textes, mais aussi, à l’inverse, pour l’analyse fine du lexique d’un texte ou d’un corpus. Cette remarque renvoie au problème toujours crucial de l’adéquation entre un objet, une problématique et une ou plusieurs méthodes. Toutefois, l’argument selon lequel la textométrie ne révèle rien de plus qu’une lecture attentive des textes trahit de temps à autre une certaine mauvaise foi. Car les méthodes de la textométrie, bien employées, peuvent mettre en lumière un certain nombre de points importants qu’il faut à mon sens expliciter de manière pragmatique, et pas seulement théorique.

Tout d’abord, la textométrie peut éclairer à la fois (et c’est ce « à la fois » qui est important) les structures et les nuances du langage d’un corpus donné. Pour les textes sur lesquels je travaille, par exemple, les conventions littéraires et les stéréotypes sont très prégnants, à tel point qu’un certain nombre d’historiens les considèrent comme inutilisables dans un cadre d’interprétation historique – même si cela renvoie aussi de temps en temps à leur réticence à considérer les sources littéraires comme des sources historiques à part entière. Pourtant, une analyse fine, si elle met généralement en lumière les dits stéréotypes, révèle souvent, aussi, les interstices. Autrement dit, l’usage de la textométrie permet dans le cas de mes sources, mais je pense qu’on peut faire le même type de travail sur d’autres types de sources, comme des chartes par exemple, de bien mettre à jour les dites nuances. Or, c’est bien l’association des structures et des nuances qui permet de construire une histoire sémantique permettant de rendre compte tout autant des codes établis que des évolutions[40], mais aussi d’éclairer un élément essentiel que l’on a parfois tendance à négliger, à savoir la densité polysémique de termes souvent fondamentaux – et le phénomène est particulièrement important en moyen anglais, et plus généralement, dans les langues vernaculaires médiévales[41]. C’est ce que j’ai essayé de montrer dans mes travaux usant de ces méthodes.

On pourrait me rétorquer que tout cela peut être perceptible à la simple lecture des textes. Dans un sens, oui, bien sûr – encore que je ne sois pas persuadée qu’une lecture linéaire permette de tout voir. Mais d’une part, cela permet d’être beaucoup plus précis et rigoureux et de ne pas rester dans le flou d’un ou deux exemples que l’on peut (presque) toujours contester et cela constitue donc un appui fort de l’argumentation, y compris sur le plan heuristique[42]. D’autre part ces méthodes, permettent de combiner une analyse globale et une analyse fine, afin de constituer un répertoire dynamique – et non statique – du lexique envisagé au sein d’un corpus donné ; et d’étudier les mots et leurs significations en les replaçant dans des réseaux conceptuels dynamiques. Pour certains, c’est peut-être de la linguistique structuraliste passéiste mais, quoiqu’on en dise, cela me paraît une manière relativement objective d’aborder un corpus textuel.

L’argument selon lequel une lecture attentive des textes est suffisante et selon lequel la textométrie ne sert à rien est par ailleurs souvent renforcé par une accusation de décontextualisation (linguistique autant qu’historique) des textes et des mots par ceux qui emploient la textométrie. Autrement dit, elle permettrait de ne plus lire les textes dans leur cohérence et ferait écran avec les conditions sociales et culturelles de leur production[43]. C’est évidemment tout l’inverse qui est vrai et, à quelques exceptions près, les historiens (et les littéraires, d’ailleurs plus nombreux pour nos périodes) qui emploient les méthodes statistiques en sont bien conscients, comme le suggère le fait que, quel que soit le logiciel de textométrie utilisé, on peut toujours revenir immédiatement au texte – c’est le cas aussi bien d’Hyperbase et de Lexico 3 que de txm. Et j’irai même plus loin : le fait de saisir ou de nettoyer un texte, de le lire et de le décortiquer dans tous les sens renforce une familiarité qui me semble essentielle. Toutefois, les choix sont encore ici importants, et il ne faut évidemment pas tomber dans les excès, je l’ai appris à mes dépens.

Ma thèse, qui portait sur un corpus de taille assez modeste de treize poèmes allitératifs anglais de la seconde moitié du xiv^e siècle et du début du xv^e, a constitué une sorte de tentative expérimentale visant à une approche statistique systématique du dit corpus[44]. Il s’agissait pour moi, portée par l’enthousiasme de la jeunesse et les fermes recommandations de mon bon maître, d’essayer d’envisager tous les aspects du lexique de ces poèmes, en lemmatisant à l’extrême et en envisageant tous les champs lexicaux possibles – religieux, sociaux, littéraires, etc. Le problème est, bien sûr, que cette approche systématique est impossible à réaliser sur un corpus de grande taille, encore que le fait de travailler sur des corpus annotés est en train de faire évoluer cette perspective. Mais, outre qu’elle a fourni un certain nombre de résultats pour ces textes en particulier, cette approche systématique m’a permis de commencer à prendre un peu de recul et d’insister davantage sur la nécessaire complémentarité des différentes approches « historique », « statistique » ou « littéraire », afin de cerner au mieux les productions textuelles anglaises de la fin du Moyen Âge. En d’autres termes, de mon point de vue, il est indispensable de multiplier les angles d’approche de textes parfois difficiles à comprendre parce que sous-tendus par des codes que nous ne maîtrisons pas naturellement.

Si j’utilise encore régulièrement (mais non systématiquement) des méthodes textométriques, donc, c’est toujours en association avec une analyse linéaire serrée des textes que j’étudie, et toujours dans le cadre d’une contextualisation historique fine. La textométrie est utile, mais ne constitue pas une fin en soi. Une lecture attentive des textes est indispensable, et pas seulement une lecture d’ailleurs, mais des relectures régulières, afin d’acquérir une certaine familiarité, dans la mesure du possible, avec ses sources. Mais je ne vois toujours pas pourquoi une lecture non-statistique exclurait l’usage de méthodes statistiques et informatiques. Au contraire, les deux approches sont éminemment complémentaires. J’ai évoqué plus haut l’archéométrie, mais on pourrait également faire une comparaison avec les systèmes d’information géographique : certains considèrent qu’un SIG est une fin en soi alors que ce n’est qu’un ensemble d’outils permettant d’analyser un phénomène particulier. Si on n’a pas de problématique construite, cela ne sert strictement à rien – à part, peut-être, à faire des jolies cartes ou des jolis graphiques[45]. En fait, cela vaut pour toutes les méthodes employées par les historiens… Cela soulève l’éternelle question, beaucoup plus vaste, de l’usage des différentes méthodes historiques. Les mêmes types de questionnement reviennent pour l’archéométrie, les SIG, la constitution de bases de données, etc. Il faut toujours savoir ce que l’on veut en faire. Mais il ne faut pas non plus les rejeter en bloc car elles peuvent s’avérer extrêmement utiles.

La textométrie appliquée aux sources anciennes, particulièrement médiévales, parvient aujourd’hui, en tout cas en France, à un tournant important. Palm et TXM, pour ne citer qu’eux et chacun à leur façon mais de manière complémentaire, constituent un aboutissement de réflexions menées depuis des décennies, et qui vont clairement faire progresser de manière significative la textométrie des langues médiévales. Mais ces logiciels ne résoudront pas tout non plus et il ne sert à rien de construire des outils aussi performants s’ils restent inutilisés. Les résistances ne disparaîtront pas d’un coup de baguette magique. Il faut donc être le plus pédagogique possible pour en faire comprendre l’intérêt.

———————

[1] Lexicométrie, textométrie, logométrie, analyse textuelle des données… La variété même de la nomination de ces outils et méthodologie suggère la diversité des réflexions sur ces derniers (voir le glossaire). J’ai pour ma part, désormais, une préférence pour le terme textométrie, qui renvoie à une approche large d’un texte dans sa totalité – et pas seulement de son lexique.
[2] Sur les transformations générales des rapports entre l’historien et l’ordinateur, voir les réflexions de Delalande et Vincent 2011, et plus généralement les autres articles de ce numéro spécial de la Revue d’histoire moderne et contemporaine intitulé Le métier d’historien à l’ère numérique : nouveaux outils, nouvelle épistémologie ?
[3] Voir notamment Lemercier et Zalc 2008 ; Mayaffre 2011 ; et plus récemment, Lebart, Pincemin et Poudart 2019.
[4] En ce qui concerne les médiévistes, ce manque d’attraction a encore été récemment soulignée par Bourin et Zadora-Rio 2013, p. 380.
[5] Outre les références citées à la note 3, voir Mairey 2011.
[6] Sur ces rapports, Jean-Philippe Genet a récemment livré deux articles dressant un panorama de la situation : Genet 2011 et 2013. Voir également Lafon et Genet 2003.
[7] Weber 2009, p. 15.
[8] Saussure 1974 et 2002.
[9] Voir Reboul et Moechsler 1998.
[10] Voir Peirce 1988.
[11] Voir Hébert 2001.
[12] Voir Guilhaumou 2006.
[13] Robin 1973.
[14] Voir Demonet 1975.
[15] Voir Lemercier et Zalc 2008 ; Briant 2011.
[16] Parmi ses nombreux travaux, voir en particulier : Rastier 2001, 2008 et 2011. Voir également la revue Corpus, consacrée à la linguistique de corpus, en ligne sur revues.org [http://corpus.revues.org/].
[17] Rastier 2011, p. 17. Il précise en note que la phrase « La langue en elle-même et pour elle-même » est en fait de Franz Bopp (1816). Plus généralement, François Rastier milite pour un rapprochement fécond entre les deux démarches, ontologiques et heuristiques : ibid., p. 28-29 ; Rastier 2001, p. 7-8.
[18] Rastier 2011, p. 15.
[19] Rastier 2001, p. 71-72. Il me semble qu’il y a là des liens à approfondir avec la notion de système de communication et les postulats de la sociolinguistique.
[20] Rastier 2011, p. 31.
[21] Sur ce point, voir notamment Mayaffre 2002.
[22] Pour des usages récents et pertinents de la fouille de données en histoire médiévale, voir Guerreau 2012 et Perreaux 2013. Le data mining suscite toutefois un certain nombre de critiques en raison, notamment, de ses liens avec le « Web sémantique » : voir Rastier 2011, p. 217-234.
[23] Notons d’ailleurs qu’il existe des réflexions sur les enjeux épistémologiques sous-jacents des logiciels de textométrie. Voir par exemple Pincemin 2012.
[24] Rastier 2001, p. 2. Je ne suis toutefois par certaine qu’il y ait vraiment exception française en la matière. De nombreux collègues anglais, par exemple, sont imperméables à ce type d’analyses.
[25] Voir le glossaire ci-dessous.
[26] Guerreau 2012, p. 3.
[27] http://palm.huma-num.fr/PALM/.
[28] Sur ce point, voir Lafon et Genet 2003, qui reste cruellement d’actualité.
[29] http://ancilla.unice.fr/. Il existe désormais une version actualisée sur internet : Hyperbase Web (http://hyperbase.unice.fr/hyperbase/).
[30] http://www.tal.univ-paris3.fr/lexico/.
[31] http://analyse.univ-paris1.fr/. Pour une présentation de ce logiciel, bien qu’il y ait eu de nombreuses améliorations depuis, voir Alerini et Lamassé 2011.
[32] Pour un exemple de traitement, voir Mairey 2003. L’article est fondé sur l’utilisation d’une ancienne version d’Hyperbase, mais les principes de l’analyse thématique qui y sont présentés ne sont pas pour autant obsolètes.
[33] Voir Lafon et Salem 1983.
[34] Voir Mayaffre 2008.
[35] Voir Mayaffre 2009.
[36] Voir Mairey 2007, p. 22-23.
[37] Voir Galloway 1999.
[38] Les enjeux de la lemmatisation diffèrent évidemment selon que l’on étudie une langue standardisée ou une langue ancienne non standardisée. Dans le premier cas, il n’est probablement plus nécessaire de lemmatiser les textes en amont, dans la mesure où l’annotation en xml permet de l’éviter, sans compter que les débats sur l’utilité de la lemmatisation ont parfois été vifs : voir notamment Brunet 2002. La situation est toute autre dans le second cas, pour des langues dont l’orthographe peut être très variable : voir par exemple Mairey 2011 ; Genet et alii 2012.
[39] Sur ce point, voir Dillmann et Bellot-Gurlet 2014.
[40] Pour une mise en parallèle avec les réflexions des philosophes médiévaux sur le langage, voir les travaux de Joël Biard, notamment Biard 1997 et 2014.
[41] J’entends ici le terme « polysémie » au sens général donné par le Trésor de la Langue Française (« Propriété d’un signifiant de renvoyer à plusieurs signifiés présentant des traits sémantiques communs »). Pour une réflexion linguistique sur la question, et notamment sur la différence entre polysémie et équivoque, voir Rastier 2011, p. 136 et suivantes.
[42] Sur ce point, voir notamment Mayaffre 2009 et Prost 1988.
[43] Je renvoie ici, bien sûr, aux travaux de Pierre Bourdieu, en particulier, Bourdieu 2001. Pour une réflexion sur l’efficacité des mots au Moyen Âge, voir Bériou et alii 2014.
[44] Mairey 2007.
[45] Pour une réflexion sur la question, voir par exemple Noizet 2005 et 2015.