bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Statistiska metoder 2

Jonas Sjöbergh

Kortfattat innehåll

Informationsteori, markovmodeller, tillämpning inom ordprediktion.

Litteratur

  • Avsnitt 6.2, 6.3 (endast s 206-207), 6.5-6.8 i kursboken.

Bredvidläsningslitteratur

Innehåll

  • Information och redundans (entropi, perplexitet)
  • Markovmodeller, speciellt HMM (gömda markovmodeller)
  • Tillämpningsexempel: ordprediktion
    • Ordprediktionsproblemet - varför är det svårt?
    • Markovmodell för ordprediktion
    • Användning av ordfrekvenser och ordklassmärkning
    • Heuristiska förbättringar:
      • främja nyligen använda ord,
      • skilj på stora och små bokstäver,
      • skapa böjningsformer,
      • presentera ordförslag i lämplig ordning.
    • Lagring av data
    • Utvärdering:
      • informationsteoretisk utvärdering
      • antalet sparade knapptryckningar

Exempel på tentafråga

Fråga

Låt X vara den stokastiska variabeln för summan av två tärningskast med en perfekt (vanlig sexsidig) tärning. Hur stor information är förknippad med utfallet X=2?

Svar

I[X=2]=-log Pr(X=2)=-log 1/36=log 36=2 log 6~5.17.

Uppsatsämne

Metoder liknande dem som används vid ordprediktion borde kunna användas för att ge ett rättstavningsprogram bättre möjligheter att rangordna rättelseförslag. Tänk igenom och beskriv hur man borde kunna gå tillväga.
Copyright © Sidansvarig: Jonas Sjöbergh <jsh@nada.kth.se>
Uppdaterad 2006-05-15