Teaching - TAL

Page principale de l'UE


Traitement Automatique de la Langue

Vous pourrez travailler sur les données de l'associate press:

Compréhension des modèles et des paramètres

Au tableau: identifier les entrées, les sorties et surtout les manières de valoriser les paramètres appris

Implémentation

Les deux principales implémentations sont celle de scikit-learn et celle de gensim. Vous pouvez utiliser l'une et/ou l'autre:

  • coté sklearn, vous avancez rapidement en réutilisant tout un cadre déjà connu
  • coté gensim, vous avez à vous familiariser avec une nouvelle bibliothèque...
    • qui contient aussi word2vec !
    • Note importante: il est possible de ré-utiliser votre

Valorisation

Il faut ensuite récupérer les modèles et comprendre ce qui a été appris

Métrique d'évaluation

Note: ces métriques sont supervisées. Vous pouvez vous amuser à comparer les performances par rapport à des approches type SVM.

Comparaison de modèles

  • PLSA, LDA, k-means
  • NMF

Introduction à Word2Vec

fichier