bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Statistiska metoder 3

Jonas Sjöbergh

Kortfattat innehåll

Ordtaggning och disambiguering.
Slides från föreläsningen i kommer dyka upp senare.

Litteratur

  • Kapitel 8 i kursboken.

Bredvidläsningslitteratur

Detaljerade läsanvisningar

  • Kursboken 8.0, översiktligt, kort om vad POS-taggning är.
  • Kursboken 8.1, översiktligt, notera öppen resp. sluten ordklass.
  • Kursboken 8.2, väldigt översiktligt.
  • Kursboken 8.3, kort och viktigt.
  • Kursboken 8.4, ganska noga, förstå metoden som beskrivs.
  • Kursboken 8.5, viktigt (utom exemplet), förstå metoden som beskrivs.
  • Kursboken sid. 308, viktigt.
  • Kursboken 8.7, ganska noga, utom "Class-based N-grams".
  • Kursboken övriga delar av kapitel 8.0, översiktligt.
  • Artikeln Implementing an efficient part-of-speech tagger av J. Carlberger, V. Kann, 1999. Postscript, PDF. Bra artikel om HMM-taggning. Beskriver teori och implementationsdetaljer. Innehåller även exempel på användningsområden och utvärdering. Sidorna 2-6, 7-10, 13-15 är mest intressanta, 16-18 är ganska intressant.
  • En översikt över taggare av Linda Van Guilder. Bra översikt, avsnittet som är "in-depth" är inte lika viktigt.
  • XPOST från Xerox: Artikel 1 innehåller ett exempel på en HMM-taggare som är "unsupervised". Tungläst. Innehåller även lite exempel på tillämpningar av taggning. Artikel 2, innehåller en beskrivning av ett helt texthanteringssystem, där taggning ingår som en del. Inte så relevant . Artikel 3 är manualen till Xerox taggare, inte så relevant.
  • TreeTagger, en probabilistisk taggare som använder HMM och beslutsträd. Två artiklar beskriver taggaren och innehåller ungefär samma information. "Improvements in Part-of-Speech Tagging with an Application to German" är intressantast. Avsnitten 2.1, 2.3 och 2.4 är intressanta och handlar om hur taggaren fungerar. Avsnitt 3 diskuterar små förbättringar som kan göras.
  • Eric Brills taggare, ftp-arkiv. En klassisk taggare, går bra att ladda hem och testa.
  • CLAWS, en engelsk taggare. Inte så mycket intresant.

Innehåll

  • Taggningsproblemet, svårigheter och tillämpningar
  • Taggning av enstaka ord
  • Olika metoder för taggdisambiguering
  • Gissning av taggar för okända ord
  • Implementation av taggaren Tagger som bygger på en Markovmodell
  • Optimering av en taggare, hur bra kan en taggare bli?
  • Testa Tagger!

Instuderingsfrågor

  • Vad är POS-taggning och vad är det bra för?
  • Vad innebär "okända ord" och vad behöver man tänka på apropå dem?
  • Hur fungerar, i grova drag, en regelbaserad/transformationsbaserad/statistikbaserad taggare?

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Uppsatsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.
Copyright © Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>
Uppdaterad 2006-05-15