Dossier: RECHERCHE D'INFORMATIONS STRUCTURÉES

 CERISTNEWS n°17

Bulletin d'information trimestriel Dix-septième numéro-mars2015 en pdf 

Edito

La Recherche d’Information (RI) automatisée permet à un utilisateur de formuler un besoin d’information, à l’aide d’une requête, pour obtenir une réponse issue d’un ensemble de documents. L’idée est apparue dès la naissance des premiers ordinateurs. Depuis, avec la gigantesque augmentation des connaissances produites et conservées numériquement, elle est devenue un secteur stratégique pour beaucoup d’entreprises et elle a indiscutablement bouleversé, par l’intermédiaire de l’Internet, le rapport de tout un chacun avec l’information. Aussi, vu la croissance sans cesse de la quantité d’information et des utilisateurs qui tentent de l’exploiter, les enjeux de la recherche d’information sont devenus considérables.
Un des aspects importants auquel nous nous intéressons, est que l’information est de plus en plus formulée de façon structurée. Cette structure est formalisée explicitement dans le texte lui même par des balises, à l’aide de langages de représentations spécifiques. Parmi ces langages, XML (eXtended Markup Language) est désormais devenu un standard universellement utilisé. Il permet l’échange et le stockage de l’information avec une certaine flexibilité qui l’a rendu extrêmement populaire. 
Les documents obtenus sont dits semi structurés, car ils sont en quelque sorte un intermédiaire entre les documents classiques et les bases de données. La problématique engendrée, en RI, par ce type de document est liée à la nature de leur contenu. En effet, comme ces documents comportent de l’information (du texte) et des contraintes structurelles (des balises), ils ne peuvent pas être efficacement exploités par les techniques classiques de RI, qui considèrent le document comme un granule d’information indivisible. Aussi, dans un document XML toute partie (élément dans le jargon XML) du document peut être considérée comme réponse potentielle à la requête de l’utilisateur. La partie concernée peut être spécifiée directement dans la requête de l’utilisateur ou calculée automatiquement par le système de recherche d’information. Les requêtes dans les systèmes de Recherche d’Information Structurée de type XML peuvent en effet avoir deux formes : une forme « contenu seulement », la requête est dans ce cas composée que de mots clés et une forme combinant la structure et le contenu.  Afin d’exploiter au mieux l’ensemble des informations disponibles, les méthodes existantes de recherche d’information doivent être adaptées ou de nouvelles méthodes doivent être proposées. C’est dans ce contexte de recherche d’information structurée que se situent nos travaux. Notre objectif est de proposer un modèle permettant de sélectionner automatiquement l’élément (ou l’ensemble d’éléments) du document qui répond le mieux au besoin de l’utilisateur formulé à travers une liste de mots clés.