- Cet évènement est passé.
Cours-bloc 2017
8 novembre 2017 @ 8:00 - 9 novembre 2017 @ 17:00
FreeStatistique textuelle et topic models
Le cours-bloc, en français, porte sur la méthodologie et la pratique de l’analyse de données textuelles, avec les logiciels libres Textable, Iramuteq et R. Cet atelier de deux jours pleins s’adresse en priorité aux doctorant.e.s et chercheur.e.s de la Faculté des lettres, actuellement (ou prochainement) confrontés aux données textuelles dans le cadre de leur recherche. Aucun prérequis particulier en informatique ou statistique n’est exigé (au-delà de l’utilisation basique d’un ordinateur).
Programme:
mer. 8 nov. 17 |
matin: salle ANT- 2012; après midi: salle ANT-5183 |
09h15-09h30 | Accueil des participants, présentation du programme et des intervenants |
09h30-10h45 | Bases conceptuelles, annotations, import XML et construction de matrices documents-termes avec Textable (slides, TP) |
10h45-11h15 |
pause de 30 minutes |
11h15-12h45 | Expressions régulières pour l’extraction de données semi-structurées avec Textable (TP) |
12h45-13h45 | pause repas de 60 minutes |
13h45-15h15 | Analyse factorielle des correspondances (AFC) et classification non supervisée (clustering) avec Iramuteq, partie I (slides) |
15h15-15h45 | pause de 30 minutes |
15h45-17h00 |
Iramuteq, partie II |
jeudi 9 nov. 17 |
matin et après-midi : salle ANT-5183 |
09h15-10h45 | Introduction à R: quelques principes généraux R pour le text mining (le package tm). (notebook) |
10h45-11h15 | pause de 30 minutes |
11h15-12h45 | Exemples et applications de text mining dans R. Bases nécessaires pour le cours de l’après-midi. (notebook) |
12h45-13h45 | pause repas de 60 minutes |
13h45-15h15 | Théorie, exemples et applications du LDA et topic modelling (slides) |
15h15-15h45 | pause de 30 minutes |
15h45-17h00 |
Travail pratique topicmodels() et interprétation (topicmodels.zip) |
Données:
texte brut: moliere_avare.txt
XML: inaugural_speeches_tagged.xml
csv: P3_GrantExport_with_abstracts_2012 (basé sur http://p3.snf.ch/P3Export/P3_GrantExport_with_abstracts.csv)
pour IRaMuTeQ: textes_partis_reduit.txt, textes_partis_tdm.csv , Trois_Romans_Zola.txt , Trois_Romans_Zola_tdm.csv, fns_fr_depuis_2007.txt
pour R (jeudi matin): cliquer ici puis sur le bouton vert “Clone or download” puis “Download ZIP” puis ouvrir le “.Rmd” dans RStudio ou le “.nb.html” dans un navigateur.
Logiciels:
Les logiciels seront tous disponibles sur les ordinateurs des salles de cours.
Ils sont tous sous licence open source et peuvent être installés sur vos machines personnelles en suivant les instructions ci-dessous:
Textable: instructions d’installation: textable.io/get-started
R: lien de téléchargement: cran.r-project.org/banner.shtml (pour les mac: installez Xquarz)
Rstudio: lien de téléchargement www.rstudio.com/products/RStudio
Iramuteq: lien de téléchargement: sourceforge.net/projects/iramuteq
Installer des modules sur R (après avoir installé R lui-même):
1. Ouvrez une “invite de commandes” (Windows: cmd.exe, Linux/Mac: Terminal)
2. Tapez: R?
3. Utilisez le code suivant dans R:
install.packages(c("FactoMineR", "ca", "tm", "topicmodels"), repos='https://stat.ethz.ch/CRAN/')