Teaching - TAL

Page principale de l'UE


Traitement Automatique de la Langue

PLSA : Formulation de la vraisemblance

Le modèle graphique de PLSA est rappelé ici : lien wikipedia. Dans ce type de schéma, on rappelle que d et w sont indépendant conditionnellement à c (noté z dans le cours).

La vraisemblance d'un corpus documentaire correspond naturellement à

\mathcal L = \prod_{w,d} p(w,d)

Pourtant, on part en général sur la formule:

\mathcal L = \prod_{w,d} p(w,d)^{N_{w,d}}

Question Les deux formules sont équivalentes et jouent sur des indices différents: donner les détails des deux formulations pour expliquer leur équivalence.

Question Quels sont les paramètres à apprendre dans le modèle graphique correspondant à PLSA? Quelles sont les dimensions des matrices stockant ces paramètres?

L'optimisation de la vraisemblance est effectuée avec l'algorithme EM (cf cours de MAPSI lien). La log-vraisemblance est ré-exprimée comme:

\log \mathcal L = \sum_{w,d} N_{w,d} \log (p(w,d)) = \sum_{w,d} N_{w,d} \sum_z p(z|w,d) \log\left(\frac{p(d,z,w)}{p(z|w,d)}\right)

On rappelle les étapes :

Question : retrouver comment la première équation a été obtenue (en utilisant les indépendances)

Question : vérifier les dimensions des différentes matrices de paramètres

Factorisation Matricielle

Les algorithmes de factorisation matricielle permettent de compresser l'information présente dans une matrice de données (en particulier une matrice parcimonieuse) en apprenant des profils. Dans le cadre de la recommandation, nous apprenons des profils de personnes et d'item. Dans le cadre de l'apprentissage sémantique, nous apprenons des profils de mots!

Question : Rappeler les dimensions des différentes matrices et leur signification

Question : Donner un algorithme SGD (gradient stochastique) permettant d'apprendre les profils à partir d'une initialisation aléatoire.

Question : La solution du problème est-elle unique?

Question : Est-il possible de forcer le système à modéliser des distributions de mots pour les différentes thématiques extraites?