Språkteknologi
Statistiska metoder 3
Viggo Kann
Kortfattat innehåll
Ordtaggning och disambiguering.
Litteratur
- Avsnitt 5.1-5.7 och 5.10 i kursboken.
Bredvidläsningslitteratur
- Resten av kapitel 5 i kursboken.
- Artikeln Implementing an efficient part-of-speech tagger
av J. Carlberger, V. Kann, 1999.
Postscript,
PDF.
Bra artikel om HMM-taggning. Beskriver teori och implementationsdetaljer. Innehåller
även exempel på användningsområden och utvärdering. Sidorna 2-6, 7-10, 13-15 är mest intressanta, 16-18 är ganska intressant.
- En översikt över taggare av Linda Van Guilder.
Bra översikt, avsnittet som är "in-depth" är inte lika viktigt.
- XPOST från Xerox:
Artikel 1 innehåller
ett exempel på en HMM-taggare som är
"unsupervised". Tungläst. Innehåller även lite exempel på
tillämpningar av taggning.
Artikel 2,
innehåller en beskrivning av ett helt texthanteringssystem, där
taggning ingår som en del. Inte så relevant
.
Artikel 3 är manualen till Xerox taggare, inte så relevant.
- TreeTagger, en probabilistisk taggare som använder HMM och
beslutsträd. Två artiklar beskriver taggaren och innehåller ungefär
samma information. "Improvements in Part-of-Speech Tagging with an
Application to German" är intressantast. Avsnitten 2.1, 2.3 och 2.4 är
intressanta och handlar om hur taggaren fungerar. Avsnitt 3 diskuterar
små förbättringar som kan göras.
- Eric Brills taggare.
En klassisk taggare, går bra att ladda hem och testa.
- CLAWS, en engelsk taggare. Inte så mycket intressant.
Föreläsningsanteckningar
Föreläsningsanteckningarna finns
här.
Innehåll
- Taggningsproblemet, svårigheter och tillämpningar
- Taggning av enstaka ord
- Olika metoder för taggdisambiguering
- Gissning av taggar för okända ord
- Implementation av taggaren Tagger som bygger på en Markovmodell
- Optimering av en taggare, hur bra kan en taggare bli?
- Testa Tagger!
Instuderingsfrågor
- Vad är POS-taggning och vad är det bra för?
- Vad innebär "okända ord" och vad behöver man tänka på apropå dem?
- Hur fungerar, i grova drag, en regelbaserad/transformationsbaserad/statistikbaserad taggare?
Exempel på tentafråga
Fråga
För att få fram övergångssannolikheterna i Markovmodellen kan man
ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre
om man använder statistik över både taggtrigram och taggbigram. Varför?
Svar
Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.
Inlämningsuppgiftsämne
Utred hur man kan göra för att tagga tal som förekommer i en text
med antingen "räkneord" eller "årtal", alltså hur kan man gissa att
ett tal står för ett årtal. Implementera din metod och se hur bra den
fungerar på några testmeningar.