Teaching - TAL

Page principale de l'UE


Traitement Automatique de la Langue

Introduction à la classification supervisée

Dans un premier temps, les étudiants peuvent tester les algorithmes de classification supervisée sur les données précédemment utilisées (20newsgroups). La comparaison de performance entre les classes d'algorithmes supervisés et non-supervisés est intéresante.

Pour la classification supervisée, nous allons travailler avec des algorithmes de haut niveau en utilisant la librairie sklearn: lien vers le tutoriel scikit-learn

Campagne d'expériences

Le but est maintenant d'optimiser les performances des classifieurs en multipliant les expériences et en optimisant l'ensemble de la chaine de traitements:

  • trouver la bonne transformation pour les données textuelles,
  • choisir le bon classifieur,
  • optimiser les paramètres du classifieur,
  • développer des outils de post-traitement et d'introspection des outils.

Pour valider cette étape, nous proposons une mini-compétition sur deux tâches, avec une page dédiée à la soumission des résultats.

Compétition: Page de soumission des scores

Tâche 1 : détection d'auteur, Chirac/Mitterrand

Nous étudions le cas suivant: un corpus de phrases appartenant respectivement à J. Chirac et F. Mitterrand est disponible (avec les étiquettes associées). Le but est de construire un modèle qui prédise correctement à qui appartiennent les différentes phrases.

!!!! Données: Movies

Tâche 2 : Analyse de sentiments, représentations des textes

Ensemble de revues étiquetées en sentiments qu'il faut classer. Le problème est binaire (positif/négatif) et les textes sont rédigés en anglais, ce qui oblige à changer de techniques de mise en forme.

Cours classification de sentiment lien

Données à télécharger

Données présidents (utf8) : lien
Rapport 2013, Romain Ayres (meilleurs scores): lien

Données movie reviews : lien

Données de test (movies reviews) : lien

TME: Suite de la séance 1 (des ressources ont été ajoutées: rapport du vainqueur de l'an dernier, import des données movies)

Liste des choses à faire figurer dans le rapport (par ordre d'importance):

  • Soumission du meilleur modèle sur le site web
  • Comparaison de classifieurs sur les deux tâches
  • Evolution des performances en fonction du codage des textes
    • Avec/sans stop words
    • unigrammes, bigrammes (tests sur la taille du dictionnaire)
  • Post-processing sur la tâche 1 (lissage)
  • Analyses qualitatives (quels mots sont discriminants pour quelles classes)
  • Comportement des classifieurs en fonction du paramétrage (évolution des perf. ou histogramme de comparaison)

Autres tests possibles:

  • Représentations avancées en texte:
  • Classification non-supervisée sur movies + mise en évidence des mots saillants dans les catégories
    • PLSA
    • LDA