Språkteknologi
Statistiska metoder 1
Viggo Kann
Kortfattat innehåll
Inledning till statistiska metoder. Enkel språkstatistik.
Litteratur
- Inledning till kapitel 4 samt avsnitt 4.1 och 4.8 i kursboken.
Bredvidläsningslitteratur
Föreläsningsanteckningar
Föreläsningsanteckningarna finns
här.
Innehåll
- Allmänt om statistiska metoder, kvantitativ lingvistik och korpuslingvistik
- Ljudfrekvenser
- Bokstavsfrekvenser, n-gram av bokstäver
- Ordfrekvenser, n-gram av ord
- Favoritord, ordklasstatistik
- Syntaktisk statistik, skiljetecken
- Innehållsstatistik (klustring av ord)
- Källor till språkstatistik
- Användbara Unixprogram för framtagning av språkstatistik
- Lagring av språkstatistik
Exempel på tentafråga
Fråga
Hur kan man använda språkstatistiska metoder för att avgöra om en text
är skriven av en viss känd författare?
Svar
Skaffa fram så mycket text som möjligt som är skriven av den aktuella författaren. Frekvensanalysera sedan denna korpus med avseende på bland annat ordfrekvenser, ordlängd och meningslängd. Jämför statistiken med annan text och leta efter skillnader. Man kan till exempel se vilka favoritord författaren har. Särskilt givande kan det vara att använda ordpar som består av synonyma ord där författaren av vana väljer endera oftare (skriver han
mer eller
mera,
även eller
också...). Jämför sedan detta med den text du vill författarbestämma.
Inlämningsuppgiftsämne
N-gram är användbart till mycket inom språkteknologin.
Gör något med n-gram, till exempel författaridentifiering, och se om det ger något intressant.