Master 2 DAC

Fouille de Donnée et Média Sociaux (FDMS)

Données du tme: Classification de texts

Tutoriel sur l'importation des données et la manipulation de données textuelles ici
Ajout génération des bigrammes

Chirac/Mitterrand

Nous étudions le cas suivant: un corpus de phrases appartenant respectivement à J. Chirac et F. Mitterrand est disponible (avec les étiquettes associées). Le but est de construire un modèle qui prédise correctement à qui appartiennent les différentes phrases.

Données: Movies

Ensemble de revues étiquetées en sentiments qu'il faut classer. Le problème est binaire (positif/négatif) et les textes sont rédigés en anglais, ce qui oblige à changer de techniques de mise en forme.

Mini-projet classification de textes

Compétition: Page de soumission des scores

Données à télécharger

Données présidents (utf8) : lien
Rapport 2013, Romain Ayres (meilleurs scores): lien

Données movie reviews : lien

Données de test (movies reviews) : moviesTest.zip

Séance 3 : Analyse de sentiments, représentations des textes

Cours classification de sentiment lien

TME: Suite de la séance 1 (des ressources ont été ajoutées: rapport du vainqueur de l'an dernier, import des données movies)

Liste des choses à faire figurer dans le rapport (par ordre d'importance):

  • Soumission du meilleur modèle sur le site web
  • Comparaison de classifieurs sur les deux tâches
  • Evolution des performances en fonction du codage des textes
    • Avec/sans stop words
    • unigrammes, bigrammes (tests sur la taille du dictionnaire)
  • Post-processing sur la tâche 1 (lissage)
  • Analyses qualitatives (quels mots sont discriminants pour quelles classes)
  • Comportement des classifieurs en fonction du paramétrage (évolution des perf. ou histogramme de comparaison)

Autres tests possibles:

  • Représentations avancées en texte:
  • Classification non-supervisée sur movies + mise en évidence des mots saillants dans les catégories
    • PLSA
    • LDA