bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Statistiska metoder 3

Viggo Kann

Kortfattat innehåll

Ordtaggning och disambiguering.

Litteratur

  • Avsnitt 5.1-5.7 och 5.10 i kursboken.

Bredvidläsningslitteratur

  • Resten av kapitel 5 i kursboken.
  • Artikeln Implementing an efficient part-of-speech tagger av J. Carlberger, V. Kann, 1999. Postscript, PDF. Bra artikel om HMM-taggning. Beskriver teori och implementationsdetaljer. Innehåller även exempel på användningsområden och utvärdering. Sidorna 2-6, 7-10, 13-15 är mest intressanta, 16-18 är ganska intressant.
  • En översikt över taggare av Linda Van Guilder. Bra översikt, avsnittet som är "in-depth" är inte lika viktigt.
  • XPOST från Xerox: Artikel 1 innehåller ett exempel på en HMM-taggare som är "unsupervised". Tungläst. Innehåller även lite exempel på tillämpningar av taggning. Artikel 2, innehåller en beskrivning av ett helt texthanteringssystem, där taggning ingår som en del. Inte så relevant . Artikel 3 är manualen till Xerox taggare, inte så relevant.
  • TreeTagger, en probabilistisk taggare som använder HMM och beslutsträd. Två artiklar beskriver taggaren och innehåller ungefär samma information. "Improvements in Part-of-Speech Tagging with an Application to German" är intressantast. Avsnitten 2.1, 2.3 och 2.4 är intressanta och handlar om hur taggaren fungerar. Avsnitt 3 diskuterar små förbättringar som kan göras.
  • Eric Brills taggare. En klassisk taggare, går bra att ladda hem och testa.
  • CLAWS, en engelsk taggare. Inte så mycket intressant.

Föreläsningsanteckningar

Föreläsningsanteckningarna finns här.

Innehåll

  • Taggningsproblemet, svårigheter och tillämpningar
  • Taggning av enstaka ord
  • Olika metoder för taggdisambiguering
  • Gissning av taggar för okända ord
  • Implementation av taggaren Tagger som bygger på en Markovmodell
  • Optimering av en taggare, hur bra kan en taggare bli?
  • Testa Tagger!

Instuderingsfrågor

  • Vad är POS-taggning och vad är det bra för?
  • Vad innebär "okända ord" och vad behöver man tänka på apropå dem?
  • Hur fungerar, i grova drag, en regelbaserad/transformationsbaserad/statistikbaserad taggare?

Exempel på tentafråga

Fråga

För att få fram övergångssannolikheterna i Markovmodellen kan man ta fram statistik över taggtrigram. I praktiken blir dock taggningen bättre om man använder statistik över både taggtrigram och taggbigram. Varför?

Svar

Tillgången på handtaggade relevanta texter är dålig. Statistiken över taggtrigram blir därför inte helt tillförlitlig. Många taggtrigram som existerar finns till exempel troligen inte med i texterna. Statistiken över taggbigram är däremot mycket mer tillförlitlig, så den kan användas för att minska verkningarna av dålig taggtrigramsstatistik.

Inlämningsuppgiftsämne

Utred hur man kan göra för att tagga tal som förekommer i en text med antingen "räkneord" eller "årtal", alltså hur kan man gissa att ett tal står för ett årtal. Implementera din metod och se hur bra den fungerar på några testmeningar.
Copyright © Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Uppdaterad 2011-08-18