cours-HMM-CRF

icon

37

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

37

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Introduction aux CRFvia l’annotation par des modèles graphiquesIsabelle TellierLIFO, Université d’OrléansPlan1. Annoter pour quoi faire2. Apprendre avec un modèle graphique3. Annnoter des chaînes avec un HMM4. Les CRF et leur application aux chaînes5. CRF sur les arbres6. Conclusion1. Annoter pour quoi faireQu’est-ce qu’annoter?– les données de départ peuvent être des textes ou des arbres ou...– texte = séquence d’items– arbre = structure hiérarchique d’itemspris dans un vocabulaire fini– annotation : l’association des données avec d’autres items prisdans un autre vocabulaire fini– ici : les données et les annotation auront la même structure maisce n’est pas obligatoire1. Annoter pour quoi faireExemples d’annotations sur des textes– étiquetage POS (“part of speech”) : item = “mot”,annotation = catégorie syntaxique (Det, Nom, etc.) dans le texte– reconnaissance des entités nommées, EI : item = “mot”,annotation = position de l’EN (B : “Begin”, I : “In”, O : “Out”)En 2008 les Jeux Olympiques ont eu lieu à PékinO B O B I O O O O B– segmentation d’un texte en “chunks”, en “syntagmes”...– alignement de phrases : item = “mot”, annotation = le(s) mot(s)correspondant(s) dans une autre phrase (par exemple pour latraduction automatique)– annotation de phrases : item = “phrase”, annotation = “classe”...1. Annoter pour quoi faireExemples d’annotations sur des arbres– étiquetage fonctionnel d’arbres syntaxiquesSENTNP VN VP.SUJ PRED OBJVN NP ...
Voir icon arrow

Publié par

Nombre de lectures

67

Langue

Français

via
Introduction aux CRF l’annotation par des modèles graphiques
LIFO,
Isabelle Tellier
Université
dOrléans
1.
2.
3.
4.
5.
6.
Annoter pour quoi faire
Apprendre avec un modèle graphique
Annnoter des chaînes avec un HMM
Les CRF et
CRF sur les
Conclusion
leur application
arbres
aux
chaînes
Plan
Qu’est-ce qu’annoter ?
1.Annoetrpourquoifarie
– les données de départ peuvent êtredes textesoudes arbresou... – texte =séquence d’items – arbre =structure hiérarchique d’items pris dans unvocabulaire fini
– annotation : l’association des données avec d’autres items pris dans un autre vocabulairefini
– ici : les données et les annotation auront lamême structuremais
– ici : les données et les annotation auront la ce n’est pas obligatoire
1.A
Exemples d’annotations sur des textes
nnoterpourquoifaire
étiquetage POS (“part of speech”): item = “mot”, annotation = catégorie syntaxique (Det,Nom, etc.)dans le texte
reconnaissance des entités nommées, EI: item = “mot”, annotation = position de l’EN (B: “Begin”,I: “In”,O: “Out”)
En 2008 les Jeux Olympiques ont eu lieu à Pékin O B O B I O O O O B
atiomentsegnd’un texte en “chunks”, en “syntagmes”...
alignement de phrases: item = “mot”, annotation = le(s) mot(s) correspondant(s) dans une autre phrase (par exemple pour la traduction automatique)
annotation de phrases: item = “phrase”, annotation = “classe”...
VN PRED
va
étiquetage fonctionneld’arbres syntaxiques
SENT
NP SUJ
VP OBJ
VN PRED
Sligos
NP OBJ
auNP
.
PP MOD
étiquetage en rôles thématiques/sémantiquesrarbdse syntaxiques : idem mais avec annotationagent,patient, etc. extraction d’informationsur le Web ou les documents XML
Royaume-Uni
pied
prendre
tanoandurssontieriafiouselpmexEbreredass1.Annoterpourq
DelST item DelST
DelN
Channel
DelN DelN
DelN
DelST DelN
#text DIV A SPAN DIV DelN description DelSTDelST title
TD TD
TR
TABLE #text
0 DelN link 0 DelST
#text #text @href #text  
  DIV  
HTML
BODY
– à gauche : un arbre HTML
trfsnaamronoitd’un arbre en un autre
– à droite : une annotation avec des opérations d’édition DelN, DelST: suppression de nud/sous-arbre channel, item, title, link, description: renommage de nuds
1es(sarbr)uitetaoinntodrsesnusxeeEirfaasdlempretonnA.iouqruop
#text #text @href #text  
– application implémentée : génération de flux RSS à partir de pages HTML
– passage d’une DTD à une autre
Channel
item
title link description
BODY
xecénutiodes opérations d’édition
TABLE #text
  DIV  
TR
HTML
#text DIV A SPAN DIV
TD TD
1A.urquoifannoterponnadselpmexEeriaresrdsunsioatotet)s(iurbse
Synthèse
1.Annoterpourquoifa
– de nombreuses tâches peuvent se formuler comme des tâches d’anntnootia
– chaque tâche requiert de spécifier : – la nature desitems – lesrelations entre items: séquence, ordres dans un arbre... – la nature destationsannoet leur interprétation – lesrelations entre annotations – lesrelationsentre les items et leur annotation
pré-traitementsetstnemetiart-stposouvent nécessaires
rie
1.
2.
3.
4.
5.
6.
Annoter pour quoi faire
Apprendre avec un modèle graphique
Annnoter des chaînes avec les HMM
Les CRF et leur application
CRF sur les
Conclusion
arbres
aux
chaînes
Plan
2.Apprendrea
Apprendre à annoter : pourquoi ?
vceunmodèlegarph
– ne requiert pas deressources externes(dictionnaires, listes)
– requiert (en principe)moins de travail
iqu
– requiert (en principe) moins de compétences enograprionmmat
– lemême programmes’adapte aux données, à la langue...
– en étantplus robuste aux données bruitées
A condition...
– de disposer d’exemples annotésdu domaine
e
gelèdomneuqihparontitaNoeasebsd
OBJ MOD
⊥ ⊥ ⊥
SUJ
PRED
PRED
NP
Sligos
VP
VN
NP
PP
va
VN
rdaeevuc
pied
.
auNP
2
p
OBJ
Arp
Royaume-Uni
n
prendre
e
– notations classiques :xest unedonnée,yest unenionnatato – on supposera ici quexetyont lamême structure ex. sur les séquences:x=un chat dortety=Det Nom Vintr ex. sur les arbres:xà gauche,yà droite
.
SENT
Voir icon more
Alternate Text