Sujet de thèse de doctorat

Techniques linguistiques et formelles pour l'accès à des textes structurés

Le commerce électronique a besoin d'outils pour améliorer la mise en correspondance entre le client et le fournisseur. Lorsque le produit est informationnel, les technologies de l'information devraient être à même de jouer un rôle prépondérant dans cette tâche.

Un important acteur du monde du savoir désire développer un site innovant de diffusion du savoir, fondé sur un grand ensemble de textes rédigés en français.

Afin d'apporter à l'internaute la meilleure expérience possible du site (accès intuitif et rapide à l'information) et de s'assurer de sa fidélité, on désire développer des mécanismes inédits de recherche, de navigation et de proposition de contenu. Ces mécanismes tireront principalement parti de l'analyse du contenu structuré (c'est-à-dire où la structure du texte jusqu'au niveau paragraphe est balisée pour un ordinateur).

Pour cela on cherche à développer un programme de recherche dont le but est de tirer parti des travaux en linguistique informatique et en représentation conceptuelle du contenu. Il exploitera ces deux axes de la manière suivante :

Il est souhaité que les deux approches soient considérées de manière conjointe. En particulier, les traits extraits des documents peuvent parfaitement nourrir la représentation conceptuelle qui peut elle-même être exploitée pour épauler les traitements linguistiques. Le travail proposé a l'intérêt de proposer un corpus conséquent pour expérimenter les techniques proposées et faire ainsi avancer l'état de l'art.

Les travaux s'effectueront en liaison étroite avec l'industriel (dispositif CIFRE) et en co-tutelle avec deux responsables: Laurent Romary (LORIA) pour l'aspect informatique linguistique et Jérôme Euzenat (INRIA Rhône-Alpes) pour l'aspect représentation conceptuelle.

Université: École doctorale mathématiques et informatique, Université Joseph-Fourier, Grenoble ou
Université de Nancy 1

Spécialité: informatique linguistique, intelligence artificielle

Connaissances utiles: informatique linguistique

co-Directeurs de thèse:
Jérôme Euzenat (Jerome . Euzenat A inrialpes . fr)
INRIA Rhône-Alpes
655 avenue de l'Europe, 38330 Montbonnot Saint-Martin, France
+33 476 61 53 66 (tél) - +33 476 61 52 07 (fax)
Laurent Romary (Laurent.Romary@loria.fr)
Laboratoire LORIA
BP 239, 54506 Vandoeuvre Lès Nancy, France
+33 3 83 59 20 37 (tél) - +33 3 83 41 30 79 (fax)