Résumé automatique de texte

Introduction

Les moteurs de recherches et les différents algorithmes de recherche d’informations que nous utilisons au quotidien traitent de grandes quantités de documents afin de permettre à un utilisateur quelconque d’accéder efficacement aux informations qui l’intéressent.

La première étape en recherche d’informations consiste généralement à interroger un moteur de recherche à l’aide d’une requête. Le moteur se charge :

  • de proposer des documents ordonnés par pertinence,
  • de proposer un résumé succinct pour chaque document
  • d’organiser des sous-catégories de résultats (via des algorithmes d’analyse de requête ou de clustering des résultats)

Le but de ce stage sera de développer un outil de résumé automatique d’un ensemble de documents par extraction de phrases. L’enjeu est de fournir à l’utilisateur un aperçu rapide sur un ensemble de document cohérents. Pour l’utilisateur, cet outil représente une solution de compromis entre la lecture des documents entiers et la lecture des micro-résumés des moteurs de recherche. Cet outil doit permettre de trouver certaines réponses précises, de manière fiable, sans entrer dans les documents complets.

Algorithmes et environnement de développement

Nous proposons dans un premier temps de construire une bibliographie des approches existantes et de comparer les approches classiques du domaine avec [1,2]. Nous souhaitons ensuite introduire une nouvelle méthode basée sur l’algorithme du LASSO [3].

Les approches actuelles propose une sélection des phrases sur un critère faisant intervenir la représentativité de la phrase et l’originalité par rapport aux phrases déjà sélectionnées. L’algorithme du LASSO présente une modélisation formelle et globale de cette recherche de compromis. Tous les développement seront effectués en JAVA au sein de la plateforme de data-mining de l’équipe de recherche.

Contexte industriel et débouchés

Cette proposition de stage s’intègre dans une collaboration entre le LIP6 et plusieurs grande entreprise de la région parisienne. L’étudiant développera ses compétences dans le domaine algorithmique ainsi que dans le domaine du développement. Ce stage peut déboucher sur une thèse ou sur un emploi industriel en fonction de la motivation de l’étudiant et de l’orientation qu’il souhaite donner à son stage.

Bibliographie

[1] Automatic Text Summarization based on Word-Clusters and Ranking Algorithms Amini M.-R., Usunier N., Gallinari P. Proceedings of the 27th European Conference on Information Retrieval (ECIR 2005), p. 142-156

[2] Une Méthode Contextuelle d'Extension de Requête avec des Groupements de Mots pour le Résumé Automatique Pessiot J.-F., Kim Y., Usunier N., Amini M.-R., Gallinari P. Proceedings of the 5th Conférence en Recherche d'Information et Applications. (CORIA 2008), p. 289-304

[3] Regression shrinkage and selection via the lasso. Tibshirani, R. J. Royal. Statist. Soc B., 1996, Vol. 58, No. 1,

Sites contenant la bilbiographie:

http://duc.nist.gov/

http://www.nist.gov/tac/