Språkteknologi
Statistiska metoder 2
Viggo Kann
Kortfattat innehåll
Informationsteori, markovmodeller, tillämpning inom ordprediktion.
Litteratur
- Avsnitt 4.2-4.6 (utom 4.5.2-4.5.3), 4.10-4.11, 6.1-6.4.
Bredvidläsningslitteratur
Föreläsningsanteckningar
Föreläsningsanteckningarna finns
här.
Innehåll
- Information och redundans (entropi, perplexitet)
- Markovmodeller, speciellt HMM (gömda markovmodeller)
- Tillämpningsexempel: ordprediktion
- Ordprediktionsproblemet - varför är det svårt?
- Markovmodell för ordprediktion
- Användning av ordfrekvenser och ordklassmärkning
- Heuristiska förbättringar:
- främja nyligen använda ord,
- skilj på stora och små bokstäver,
- skapa böjningsformer,
- presentera ordförslag i lämplig ordning.
- Lagring av data
- Utvärdering:
- informationsteoretisk utvärdering
- antalet sparade knapptryckningar
Exempel på tentafråga
Fråga
Låt X vara den stokastiska variabeln för summan av två tärningskast med
en perfekt (vanlig sexsidig) tärning. Hur stor information är förknippad
med utfallet X=2?
Svar
I[X=2]=-log Pr(X=2)=-log 1/36=log 36=2 log 6~5.17.
Inlämningsuppgiftsämne
Metoder liknande dem som används vid ordprediktion borde kunna användas
för att ge ett rättstavningsprogram bättre möjligheter att rangordna
rättelseförslag. Tänk igenom och beskriv hur man borde kunna gå tillväga.
Gör en enkel implementation för att testa.