bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Statistiska metoder 2

Viggo Kann

Kortfattat innehåll

Informationsteori, markovmodeller, tillämpning inom ordprediktion.

Litteratur

  • Avsnitt 4.2-4.6 (utom 4.5.2-4.5.3), 4.10-4.11, 6.1-6.4.

Bredvidläsningslitteratur

Föreläsningsanteckningar

Föreläsningsanteckningarna finns här.

Innehåll

  • Information och redundans (entropi, perplexitet)
  • Markovmodeller, speciellt HMM (gömda markovmodeller)
  • Tillämpningsexempel: ordprediktion
    • Ordprediktionsproblemet - varför är det svårt?
    • Markovmodell för ordprediktion
    • Användning av ordfrekvenser och ordklassmärkning
    • Heuristiska förbättringar:
      • främja nyligen använda ord,
      • skilj på stora och små bokstäver,
      • skapa böjningsformer,
      • presentera ordförslag i lämplig ordning.
    • Lagring av data
    • Utvärdering:
      • informationsteoretisk utvärdering
      • antalet sparade knapptryckningar

Exempel på tentafråga

Fråga

Låt X vara den stokastiska variabeln för summan av två tärningskast med en perfekt (vanlig sexsidig) tärning. Hur stor information är förknippad med utfallet X=2?

Svar

I[X=2]=-log Pr(X=2)=-log 1/36=log 36=2 log 6~5.17.

Inlämningsuppgiftsämne

Metoder liknande dem som används vid ordprediktion borde kunna användas för att ge ett rättstavningsprogram bättre möjligheter att rangordna rättelseförslag. Tänk igenom och beskriv hur man borde kunna gå tillväga. Gör en enkel implementation för att testa.
Copyright © Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Uppdaterad 2009-09-07