Cours RI

icon

16

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

16

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Approches fondées sur le s chaînes de caractères pour le Re cherche d'Inf ormation Mathieu RocheCours ECD (Recherche d'Information et Langage Naturel)2008/2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).– De telles connaissances ex istent dans le dom aine général. – Limite : domaines spécialisés.Lien entr e les chaînes de car actères et la “sémantique” ?2 Cours ECD - M2 – 2008/ 2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des méthodes fondées sur les chaînes de caractères pour :– Apporter des connaissances sémantiques (pour le regroupement de m ots “sém antiquement” proches),– Normaliser les textes (correction orthographique, etc.),– Reconnaissance des langues ,– Identification de plagiat (prox imité d e m arques déposées à l'IN P I),3 Cours ECD - M2 – 2008/ 2009– etc.Suffixes/ PréfixesBut : vé rifier q u'une c haîne d e c aractères Ch1 s e retrouve :• au d ébut d 'une c haîne d e ca ractères Ch2 (préfixe),• à la fi n d 'une ch aîne d e c aractères Ch2 (suffixe).✔ Exemples de similarités :● P réfixe -> Ch1 = chat / Ch2 = chaton● Suffixe -> Ch1 = suivre / Ch2 = p oursuivre4 Cours ECD - M2 – 2008/ 2009Suffixes/ PréfixesAvantage : efficace s ur c ertains domaines spécialisés te ls q ue la m édecine [N akache et al. 2006]✔ Les s uffixes indicateurs d 'états path ologiques : ...
Voir icon arrow

Publié par

Nombre de lectures

36

Langue

Français

Approches fondées sur les chaînes de caractères pour le Recherche d'Information
Mathieu Roche
Cours ECD (Recherche d'Information et Langage Naturel)
2008/2009
 et èressémala eu tnqi
Limite : domaines spécialisés.
Utilisation des informations sur les chaînes de caractères en RI
?
Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).
2
2M  D - sCEoCru098/20 200ncsa eeson cisnaet esellDgénéral.domaine adsnl  eixtsne t racte caes dhaînsec erl e tniLne
3
Utilisation des informations sur les chaînes de caractères en RI
Utiliser des méthodes fondées sur les chaînes de caractères pour :
Apporter des connaissances sémantiques (pour le regroupement de mots “sémantiquement” proches),
Normaliser les textes (correction orthographique, etc.),
Reconnaissance des langues ,
Identification de plagiat (proximité de marques déposées à l'INPI),
etc.
Cours ECD - M2  0280/2009
4
Suffixes/Préfixes
But : vérifier qu'une chaîne de caractères Ch1 se retrouve : • au début d'une chaîne de caractères Ch2   ( préfixe ), • à la fin d'une chaîne de caractères Ch2 ( suffixe ).
Exemples de similarités :  Préfixe -> Ch1 = chat / Ch2 = chat on Suffixe -> Ch1 = suivre / Ch2 = pour suivre
oCurs ECD - M2  2008/0290
5
Suffixes/Préfixes
Avantage : efficace sur certains domaines spécialisés tels que la médecine [Nakache et al. 2006]
Les suffixes indicateurs d' états pathologiques : 'ite' pour  désigner l'inflammation (pancréat ite , appendic ite , gastr ite ), 'algie'  ou 'odynie' pour la douleur.
Les suffixes indicateurs de gestes techniques : 'centèse'  signifie ponction, 'ectomie' est propre à l'ablation, 'plastie' la réparation.
 
Cours ECD M2 – 2008/2009 -
6
Suffixes/Préfixes
Utilisation de ces connaissances (suffixes/préfixes) sur les chaînes de caractères comme connaissance du domaine.
Désuffixation pour améliorer les méthodes de classification [Nakache et al., 2006]
Limite : chat / chateau !  
oCrus ECD - M2  2008/2009
 2M002 CE s - D208/709oCrui sspeapes» aut atsi ecndE «D tique : L'Remar
Il existe de nombreuses mesures de similarité (pas seulement au niveau des méthodes de mise en correspondance de schémas).
Exemple avec la distance « Edit distance » (notée E ) = somme minimale du coût des opérations qu'il faut effectuer pour transformer Ch1 en Ch2 .   Opérations : suppression, insertion, remplacement.
String Matching
is D «lédee nctahsneveL  » niet
8
String Matching
Exemple : E ( gréviste , grève ) = 4  
Ch1 : g _
Opérations : Ch2 : _ g
r é v i _ _ _ _
Remplacement Insertio
r è v _ _ _
nIn
s _
serti
noIns
t _
ert
ion
e _
e _
Mesure prenant en compte E : la mesure String Matching ( SM ) de Maedche et Staab :  SM(Ch1,Ch2) = max[ 0; (min(|Ch1|,|Ch2|)-E(Ch1,Ch2))/min(|Ch1|,|Ch2|) ]
SM ( gréviste , grève ) = max(0;(5-4)/5) = 0.2 Calculer SM (chat,chaton) Cour
 
Cours ECD - M2 – 2008/2009
9
String Matching
Méthode (Distance de Levenshtein) :  
Construire une matrice M de n+1 lignes et m+1 colonnes. Initialiser de la première ligne par la matrice ligne [ 0,1,….., m-1, m] et la première colonne par la matrice colonne [ 0,1,….., n-1, n]
Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j) On a donc ici la matrice Cout :
oCrus EDC  -2M  0280/2009
10
String Matching
On remplit ensuite la matrice M en utilisant la règle suivante M[i, j] est égale au minimum de: L’élément directement avant plus 1: M[i-1, j] + 1. -      - L’élément directement au dessus plus 1: M[i, j-1] + 1.  - Le diagonal précédent plus le coût: M[i-1, j-1] + Cout(i, j).
...
Cours 
Calculer la matrice pour les mots : (chat, chaton)
ECD - 2M  2008/0290
/200911TechniquE DC- M  2 0280Crsoucllu rac erel ilutt esou péeis-n sed e semmargM oene isdee vreum serusef noédse sur les tri-grasemmlet uq sal ees me ur Lde.in
Généralement, la valeur de n varie entre 1 et 5.
 nombre de n caractères consécutifs.
n-grammes
Exemple de tri-grammes : Ch1 = chat / Ch2 = chaton : tr(Ch1) = { cha , hat } tr(Ch2) = { cha , hat , ato, ton}
 
Voir icon more
Alternate Text