Approches fondées sur le s chaînes de caractères pour le Re cherche d'Inf ormation Mathieu RocheCours ECD (Recherche d'Information et Langage Naturel)2008/2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).– De telles connaissances ex istent dans le dom aine général. – Limite : domaines spécialisés.Lien entr e les chaînes de car actères et la “sémantique” ?2 Cours ECD - M2 – 2008/ 2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des méthodes fondées sur les chaînes de caractères pour :– Apporter des connaissances sémantiques (pour le regroupement de m ots “sém antiquement” proches),– Normaliser les textes (correction orthographique, etc.),– Reconnaissance des langues ,– Identification de plagiat (prox imité d e m arques déposées à l'IN P I),3 Cours ECD - M2 – 2008/ 2009– etc.Suffixes/ PréfixesBut : vé rifier q u'une c haîne d e c aractères Ch1 s e retrouve :• au d ébut d 'une c haîne d e ca ractères Ch2 (préfixe),• à la fi n d 'une ch aîne d e c aractères Ch2 (suffixe).✔ Exemples de similarités :● P réfixe -> Ch1 = chat / Ch2 = chaton● Suffixe -> Ch1 = suivre / Ch2 = p oursuivre4 Cours ECD - M2 – 2008/ 2009Suffixes/ PréfixesAvantage : efficace s ur c ertains domaines spécialisés te ls q ue la m édecine [N akache et al. 2006]✔ Les s uffixes indicateurs d 'états path ologiques : ...
Voir