Classification de sentiments et détection de rumeurs sur le Web 2.0

Description du contexte

Depuis quelques années, la tâche de « sentiment classification » (encore dénommée « opinion mining » ou « sentiment analysis ») est un domaine de recherche actif. Il consiste principalement à trouver l’opinion, le sentiment et l’attitude qui sont exprimés dans un document textuel ou plus souvent des des flux de documents comme les flux du web, les échanges e-mail ou les commentaires sur les blogs et forums.

Beaucoup de sites Web qui contiennent des informations d’opinion comme par exemple des commentaires de clients sur des produits (« customer reviews »), des forums, des groupe de discussion et des blogs où les gens peuvent exprimer leurs opinions et sentiments à l’égard de n’importe quoi ou de n’importe qui. Le Web devient ainsi une excellente source de données d’opinion. L’analyse de ces opinions permet différentes applications. Par exemple, les clients peuvent afficher la comparaison d’opinions des autres clients sur différents produits avant de choisir quel produit qu’ils vont acheter (Liu et al. 2005 [2]); les producteurs, les agents commerciaux peuvent collecter les opinions de leurs clients afin d’améliorer leurs produits et services, élargir leur marché potentiel, ou encore prédire la quantité de vente (Yang Liu et al. 2007 [1]). Les sociologues peuvent détecter les rumeurs qui sont reflétés dans les notes des blogs.

Exemple d'analyse de document orientée sentiment

Différents travaux de recherche considère ce domaine. Par exemple, Pang et al. ont essayé de quantifier le sentiment [3]. Gilad Mishne et Marteen de Rijke 2006 capturent les niveaux d’humeur dans des notes de blogs [4]. Gilad Mishne and Natalie Glance 2006 prédisent les ventes de film en fonction des notes des Bloggers [5]. Des compétitions sont organisées par le NIST américain pour évaluer les approches du problème. Les objectifs scientifiques sont ambitieux, car l’extraction des sentiments doit faire appel aussi bien à des techniques statistiques que linguistiques. Le potentiel applicatif est énorme car ces méthode peuvent complémenter les enquêtes classique en offrant des outils bien plus réactifs et dont la portée est largement supérieure.

Objectifs du stage :

Construire un espace continu de représentation des mots: tous les mots seront projeté dans un espace de dimension fixée puis nous optimiserons la position des mots en utilisant un critère entropique.

En se basant sur cet espace continu, nous créerons des noyaux optimisés pour la détection de sentiment capable de rivaliser avec les méthodes de l'état de l'art. Nous testerons aussi des approches basées sur les réseaux de neurones.

Ces stratégies seront développées en JAVA, en utilisant les outils déjà présents dans la plateforme de l'équipe. Elles seront testées sur les bases de données classiques du domaine.

Bibliographie

[1] Yang Liu and al. 2007 ARSA: A Sentiment-Aware model for predicting sales performance using blogs.

[2] Liu et al. 2005 Opinion observer: Analyzing and comparing opinions on the Web.

[3] Pang, Bo and Lee, Lillian 2005 Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.

[4] Gilad Mishne and Marteen de Rijke 2006 Capturing global mood levels using blog posts.

[5] Gilad Mishne and Natalie Glance 2006 Predicting Movie Sales from Blogger Sentiment.