Apprentissage dans les très grande base de donnée

Présentation du problème

Ce stage propose de travailler sur des données particulières:

  • le nombre de données est très grand (plusieurs centaines de millions d'échantillons
  • la dimension des échantillons est faible (une cinquantaine de caractéristiques)
  • les données sont séparées en deux classes: 99.3% dans la classe 1 et 0.7% dans la classe 2.

Approche envisagée

Afin de faire face au nombre important d'échantillon, deux stratégies complémentaires sont envisagées:

  • l'usage d'algorithmes basés sur les gradients stochastiques, capable de traiter les échantillons un par un sans charger la base totale.
  • l'usage de classifieur à une classe, pour caractériser différentes parties de la base de données indépendamment les unes des autres.

Pré-requis

Tous les développements seront effectués en JAVA, en se basant sur les outils déjà présent dans la plateforme de l'équipe de recherche, le candidat devra maitriser ce langage.

Le candidat maitrisera les algorithmes classiques d'apprentissage statistique en classification/régression: perceptron, SVM (au moins linéaire), approches bayesiennes