Statistique Textuelle

(Ludovic Lebart et André Salem) Préface de Christian Baudelot

Chapitre 0 : Préface, Sommaire, Avant Propos, Introduction (format pdf)

Chapitre 1 : Domaines et problèmes (format pdf)

Le premier chapitre, Domaines et problèmes, évoque à la fois : les domaines disciplinaires concernés (linguistique, statistique, informatique), les problèmes et les approches. Il précise dans chaque cas la nature du matériau de base que constituent les textes rassemblés en corpus.

Chapitre 2 : Les unités de la statistique textuelle (format pdf)

Le second chapitre, Les unités de la statistique textuelle, est consacré à l'étude des unités statistiques que les programmes lexicométriques devront découper ou reconnaître (formes, segments répétés). Il aborde les aspects fondamentaux de l'approche quantitative des textes, les propriétés de ces unités ; il précise leurs pertinences respectives en fonction des champs d'application.

Chapitre 3 : L'analyse des correspondances (format pdf)

Chapitre 4 : La classification automatique des formes et des textes (format pdf)

Les troisième et quatrième chapitres, L'analyse des correspondances des tableaux lexicaux, et La classification automatique des formes et des textes, présentent les techniques de base de l'analyse statistique exploratoire des données multidimensionnelles à partir d'exemples que l'on a souhaité les plus simples possibles.

Chapitre 5 : Typologies, visualisations (format pdf)

Le cinquième chapitre : Typologies, visualisations, applique les outils présentés aux chapitres trois et quatre à la description des associations entre formes et entre catégories. Il fournit des exemples d'application en vraie grandeur commentés du point de vue de la méthode statistique. Il détaille les règles de lecture et d'interprétation des résultats obtenus, fait le point sur leur portée méthodologique.

Chapitre 6 : Eléments caractéristiques, réponses ou textes modaux (format pdf)

Pour compléter ces représentations synthétiques, le sixième chapitre, Eléments caractéristiques, réponses ou textes modaux, présente les calculs dits de spécificité ou de formes caractéristiques qui permettent de repérer, pour chacune des parties d'un corpus, celles des unités qui se signalent par leurs fréquences atypiques. La sélection automatique des réponses modales ou des textes modaux permet de replacer les formes dans leur contexte, et de caractériser, lorsque cela est possible, des parties de texte, en général volumineuses, par des portions plus petites (phrases, paragraphes, documents, réponses dans le cas d'enquêtes). On résume ainsi, dans le cas des réponses libres, l'ensemble des réponses d'une catégorie de répondants par quelques réponses effectivement attestées dans le corpus, choisies en raison de leur caractère représentatif.

Chapitre 7 : Partitions longitudinales, contiguïté (format pdf)

Le septième chapitre, Partitions longitudinales, contiguïté, traite le problème des informations a priori qui concernent les parties d'un corpus. Dans de nombreuses applications, en effet, l'analyste possède, avant toute démarche de type quantitatif, des informations qui lui permettent de rapprocher entre elles certaines des parties, ou encore de dégager un ordre privilégié parmi ces dernières (séries textuelles chronologiques). On étudie dans ce chapitre, en présentant une méthode et de nombreux exemples d'application, les relations de dépendance que l'on peut observer entre ces structures et les profils lexicaux des parties.

Chapitre 8 : Analyse discriminante textuelle (format pdf)

Le huitième chapitre, consacré à l'Analyse discriminante textuelle, étudie, au sens statistique du terme, le pouvoir de discrimination des textes. Comment affecter un texte à un auteur (ou à une période) ? Peut-on prévoir l'appartenance d'un individu à une catégorie à partir de sa réponse à une question ouverte ? Comment classer (ici : affecter à des classes préexistantes) un document dans une base de données textuelles ? On tente dans ce chapitre, qui contient des exemples d'application variés, de montrer quels sont les apports de la statistique textuelle à la stylométrie, à la recherche documentaire, ainsi qu'à certains modèles prévisionnels.

Annexes et fin : (format pdf)

Annexe A Description sommaire de quatre logiciels

Annexe B Esquisse des algorithmes et structures de données

Glossaire

Références bibliographiques

Index des auteurs