Teaching - TAL

Page principale de l'UE


Traitement Automatique de la Langue

Chargement d'un corpus (lecture de fichiers)

Chargement des documents, mode(s) d'emploi: lien

Vous devez obtenir une liste de textes (ou une liste par classe de documents). Afficher quelques éléments de la liste pour vérifier que tout fonctionne correctement

Gestion d'un corpus et transformation en sacs de mots

Vectorisation des documents : lien

Vous devez obtenir une matrice contenant 1 document par ligne (les colonnes correspondant aux mots du dictionnaire).

  • Essayer d'afficher quelques documents sous forme numérique puis reconstruite pour vérifier que vous avez bien compris les opérations de transformation.
  • Afficher une liste de stopwords avec nltk
  • Afficher les 100 premiers mots du dictionnaire
    • unigrammes de mots
    • bigrammes de mots
    • 3-grammes de lettres
    • Comparer les tailles de dictionnaire en fonction des fréquences de coupure