bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Morfologi, morfologisk analys, särdrag och lexikon

Johan Boye

Innehåll

  • Morfologi och formlära - definitioner: morfem, suffix, etc.
  • Exempel från svenskans morfologi
  • Metoder och algoritmer: trunkering, ändliga automater, transduktorer, tvånivåmetoder
  • Lemmatisering och stemming
  • Tokenisering

Föreläsningsbilder

Litteratur

  • Jurafsky & Martin: kapitel 3 (Morphology and Finite-State Transducers, äldre upplagan)
  • Jurafsky & Martin: kapitel 3 (Words and Transducers, nya upplagan, 2008)

Bredvidläsningslitteratur

Richard Sproat. 1992. Morphology and Computation. MIT Press.
Lars Ahrenberg. 1986. Lexikon och morfologi. Ur Formell grammatik för naturligt språk. Inst. för datavetenskap. Linköpings universitet.

Exempel på tentafråga

Fråga

Beskriv ett par egenskaper hos mänskliga språk som gör automatisk morfologisk analys bökig.

Svar

Språk böjer ord oregelbundet och på många olika sätt: infix mitt inne i ord, eller stamförändringar (dricka-drack) eller stamutbyte (vara, är/ liten, mindre). Men det mesta går att ordna, eftersom det sällan kommer till nya oregelbundenheter. En del språk har komplicerade och oförutsägbara avlednings- och sammansättningsregler; en del har enkla och förfärligt vanliga sammansättningar. Svenska är ett exempel på det senare. Det kan bildas nya ord utan förvarning lite hursomhelst. Många språk, oavsett hur komplex deras morfologi är i övrigt, är besvärliga att ha att göra med för böjningsmönstren är alldeles för lika mellan olika ordtyper. På svenska är verbpresens och substantivplural samma ändelse, till exempel. Det räcker inte med information om ändelsen för att avgöra om "gillar" är verb eller substantiv.

Uppsatsuppgifter

PC-KIMMO

Utforska PC-KIMMO och tvånivåmorfologi. I PC-KIMMO kan man skriva sina egna tvånivåregler. PC-KIMMO kan laddas ner här . Implementera några regler och lexikala poster för svenska. Beskriv dina erfarenheter av PC-KIMMO och presentera några olika regler.
Copyright © Sidansvarig: Johan Boye <jboye@csc.kth.se>
Uppdaterad 2011-09-01