bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Statistiska metoder 1

Viggo Kann

Kortfattat innehåll

Inledning till statistiska metoder. Enkel språkstatistik.

Litteratur

  • Inledning till kapitel 4 samt avsnitt 4.1 och 4.8 i kursboken.

Bredvidläsningslitteratur

Föreläsningsanteckningar

Föreläsningsanteckningarna finns här.

Innehåll

  • Allmänt om statistiska metoder, kvantitativ lingvistik och korpuslingvistik
  • Ljudfrekvenser
  • Bokstavsfrekvenser, n-gram av bokstäver
  • Ordfrekvenser, n-gram av ord
  • Favoritord, ordklasstatistik
  • Syntaktisk statistik, skiljetecken
  • Innehållsstatistik (klustring av ord)
  • Källor till språkstatistik
  • Användbara Unixprogram för framtagning av språkstatistik
  • Lagring av språkstatistik

Exempel på tentafråga

Fråga

Hur kan man använda språkstatistiska metoder för att avgöra om en text är skriven av en viss känd författare?

Svar

Skaffa fram så mycket text som möjligt som är skriven av den aktuella författaren. Frekvensanalysera sedan denna korpus med avseende på bland annat ordfrekvenser, ordlängd och meningslängd. Jämför statistiken med annan text och leta efter skillnader. Man kan till exempel se vilka favoritord författaren har. Särskilt givande kan det vara att använda ordpar som består av synonyma ord där författaren av vana väljer endera oftare (skriver han mer eller mera, även eller också...). Jämför sedan detta med den text du vill författarbestämma.

Inlämningsuppgiftsämne

N-gram är användbart till mycket inom språkteknologin. Gör något med n-gram, till exempel författaridentifiering, och se om det ger något intressant.
Copyright © Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Uppdaterad 2011-08-18