Cours-bloc

Statistique textuelle et topic models

Le cours-bloc, en français, porte sur la méthodologie et la pratique de l’analyse de données textuelles, avec les logiciels libres Textable, Iramuteq et R. Cet atelier de deux jours pleins s’adresse en priorité aux doctorant.e.s et chercheur.e.s de la Faculté des lettres, actuellement (ou prochainement) confrontés aux données textuelles dans le cadre de leur recherche. Aucun prérequis particulier en informatique ou statistique n’est exigé (au-delà de l’utilisation basique d’un ordinateur).

Programme:
mer. 8
nov. 17
matin: salle ANT- 2012; après midi: salle ANT-5183
09h15-09h30 Accueil des participants, présentation du programme et des intervenants
09h30-10h45 Bases conceptuelles, annotations, import XML et construction de matrices documents-termes avec Textable (slides, TP)
10h45-11h15
pause de 30 minutes
11h15-12h45 Expressions régulières pour l’extraction de données semi-structurées avec Textable (TP)
12h45-13h45 pause repas de 60 minutes
13h45-15h15 Analyse factorielle des correspondances (AFC) et classification non supervisée (clustering) avec Iramuteq, partie I (slides)
15h15-15h45 pause de 30 minutes
15h45-17h00
Iramuteq, partie II
jeudi 9
nov. 17
matin et après-midi : salle ANT-5183
09h15-10h45 Introduction à R: quelques principes généraux
R pour le text mining (le package tm). (notebook)
10h45-11h15 pause de 30 minutes
11h15-12h45 Exemples et applications de text mining dans R.
Bases nécessaires pour le cours de l’après-midi. (notebook)
12h45-13h45 pause repas de 60 minutes
13h45-15h15 Théorie, exemples et applications du LDA et topic modelling (slides)
15h15-15h45 pause de 30 minutes
15h45-17h00
Travail pratique topicmodels() et interprétation (topicmodels.zip)
Données:

texte brut: moliere_avare.txt

XML: inaugural_speeches_tagged.xml

csv: P3_GrantExport_with_abstracts_2012 (basé sur http://p3.snf.ch/P3Export/P3_GrantExport_with_abstracts.csv)

pour IRaMuTeQ: textes_partis_reduit.txt, textes_partis_tdm.csv , Trois_Romans_Zola.txt , Trois_Romans_Zola_tdm.csv, fns_fr_depuis_2007.txt

pour R (jeudi matin): cliquer ici puis sur le bouton vert « Clone or download » puis « Download ZIP » puis ouvrir le « .Rmd » dans RStudio ou le « .nb.html » dans un navigateur.

Logiciels:

Les logiciels seront tous disponibles sur les ordinateurs des salles de cours.
Ils sont tous sous licence open source et peuvent être installés sur vos machines personnelles en suivant les instructions ci-dessous:

Textable: instructions d’installation: textable.io/get-started
R
: lien de téléchargement: cran.r-project.org/banner.shtml (pour les mac: installez Xquarz)
Rstudio: lien de téléchargement www.rstudio.com/products/RStudio
Iramuteq: lien de téléchargement: sourceforge.net/projects/iramuteq

Installer des modules sur R (après avoir installé R lui-même):
1. Ouvrez une « invite de commandes » (Windows: cmd.exe, Linux/Mac: Terminal)
2. Tapez: R↩
3. Utilisez le code suivant dans R:

install.packages(c("FactoMineR", "ca", "tm", "topicmodels"), repos='https://stat.ethz.ch/CRAN/')