Språkteknologi, 6 hp
KursPM sprakt09
Kursen i språkteknologi är en kurs som behandlar språkteknologi med fokus på text. Kursen har dels en teoretisk del, dels en praktisk där teorin undersöks i form av kortare laborationer. Kursen examineras med laborationer, salstenta samt en inlämningsuppgift.
Lärare
Kursledare är Ola Knutsson
. Mottagning efter överenskommelse, rum 4542, plan 5 i D-huset, telefon 08-790 62 81. Övriga föreläsare är Viggo Kann, Martin
Hassel , Magnus Rosell , och Anders
Green. Dessutom
medverkar Peter Svanberg, Joakim Gustafsson, Hercules Dalianis och Sumithra Velupillai som gästföreläsare.
Kursens mål
Ni skall efter kursen kunna:
- förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
- använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
- förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
- praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
- analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
- förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.
Kurslitteratur
Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken
ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå
på alla föreläsningar.
Kursbok

Speech and Language
Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns
på kårbokhandeln. Obs! Ny upplaga säljs av kårbokhandeln, den kostar 485 kr.
Texter som delas ut vid kursstart
Kursbunt
Kursbunten är numera endast elektronisk. Vi uppmanar er att läsa artiklarna i denna.
Papper som delas ut under kursens gång kommer att finnas i en hylla märkt med kursens namn
utanför Studentexpeditionen.
Kursupplägg
Varje vecka hålls två till tre föreläsningar, en tillämpningsföreläsning
och en terminalövning (viss variation kan förekomma). På föreläsningarna gås teorin igenom.
På tillämpningsföreläsningarna visas hur teorin kan tillämpas
i en språkteknologisk produkt. På terminalövningarna får du
själv tillämpa teorin i liten skala.
Kursplan
Följande kursplansschema
visar vad som kommer att behandlas när i kursen. Varje föreläsning
och labb presenteras kort på en egen webbsida. Ha för vana att läsa
igenom den webbsidan innan du går till undervisningen, för där står
vilken litteratur som kommer att gås igenom och ifall det är något
du bör förbereda först.
-
Kursregistrering
Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen
för ditt utbildningsprogram.
Endast de teknologer som studievägledningen lagt in i Ladok som studerande
på en kurs kan godkännas på kursen. Vill du läsa en kurs som
inte är obligatorisk för dig måste du alltså först välja
kursen vid ditt programs studievägledning som måste godkänna ditt
val.
Så snart kursen börjat måste du registrera dig på den.
Detta görs med kommandot
res checkin sprakt09
på någon av Nadas Unixdatorer. Registrera dig så snart som
möjligt efter att kursen börjat!
För din egen skull bör du också ge kommandot
course join sprakt09
Detta kommando gör tre saker:
- Du får se eventuella nya meddelanden från kursledaren varje gång
du loggar in.
- Du får kursens användarmiljö, dvs alla initieringar som kursledaren
tycker att kursdeltagarna bör ha görs vid varje inloggning.
- Du får en speciell kurshemsida som startsida i Netscape.
När du är klar med kursen ger du kommandot
course leave sprakt09
för att återställa allt.
Laborationer
Labbkursen består av sex laborationer
som görs i grupper om högst två personer.
Dessa labbar utgör kursmomentet LAB2, värt 1,5 poäng.
Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör
alla sex labbarna inom ett år från kursens slut har kursledaren rätt
att kräva att du gör samtliga labbar i den nya kursomgången.
Bonuspoäng
Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i
fas med undervisningen. För varje labb som redovisas på rätt redovisningstillfälle,
erhålls en bonuspoäng. Med rätt redovisningstillfälle avses den dag och tid som den aktuella laborationen är schemalagd. Man skall helst redovisa i terminalsalen vid labbtillfället, men laborationslösningar som lämnas in senast 23.59 labbdagen kommer också att ge bonuspoäng. Summan av dessa poäng adderas till den på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat
från kursstart. Bonuspoäng kan endast fås det år som labbresultatet
rapporteras. När du är inloggad kan du se vilka labbar du är godkänd
på genom att ge kommandot
res show sprakt09
Hederskodex
Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter,
tentor m.m.) ska du göra själv, förutom att labbarna kan göras
i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna
redogöra i detalj även för vad labbkompisen skrivit.
Ibland, speciellt när man skriver program, kan det vara nödvändigt
att fråga någon annan (en kamrat eller en handledare) om hjälp med
att hitta fel. Detta är tillåtet förutsatt att du uppfyller
följande villkor.
- Om du fått hjälp med mer än bara någon enstaka rad i programmet
ska du ge ett skriftligt erkännande till den som hjälpte till, lämpligen
i form av en kommentarrad överst i programmet, som talar om vem som hjälpt
dig med vad.
- Du måste förstå hela den färdiga lösningen, även
de delar du fått hjälp med.
Varje annan form av samarbete och utnyttjande av andras lösningar betraktas
som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar
alla bonuspoäng eller får göra en ny uppgift.
Läs mer om Hederskodex
och regler för examination vid Nadas kurser
Examination
Kursen innehåller följande moment:
- TEN2 som är en salstenta (3 poäng)
- INLA som är en inlämningsuppgift (1,5 poäng).
- LAB2 som är 6 laborationer (1,5 poäng)
Slutbetyget är medelvärdet av betygen på inlämningsuppgiften
och den skriftliga tentan, avrundat utifrån resultatet på den muntliga delen på INLA. Ett VG på den muntliga delen på INLA gör att medelvärdet avrundas uppåt.
Kursmomentet TEN2
Kursmomentet TEN2 (värt 3 poäng) examineras med en salstenta.
TEN2 examinerar följande kursmål:
- förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
- klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
- förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
Det är en vanlig skriftlig tenta med frågor på hela kursen.
Tentan är indelad i två delar:
- Del 1 (20 tentapoäng): Denna del måste du klara för att bli godkänd på kursen. Minst 15 poäng krävs för att bli godkänd på denna del. Denna del har en teoretisk inrikning.
- Del 2 (30 tentapoäng): Denna del har en problemorienterad inriktning. Om du spikar del 1 måste du ta minst 5 poäng på denna del för att få betyg E på tentan.
Betygsgränser enligt följande: F: 0-19, Fx: 20-24, E: 25-29 poäng, D: 30-34 poäng, C: 35-39 poäng, B: 40-44 poäng, A: 45-50 poäng.
En exempeltenta finns
här
Tid och plats för ordinarietentan är fredagen den 22 oktober 2009, 14-18, i sal E51, E52 och E53.
Inga hjälpmedel får användas på tentan förutom på del 2 då kursboken
Speech and Language Processing av Jurafsky & Martin får användas.
Klagomål på
rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor
från det att tentaresultatet anslagits.
Kursmomentet INLA
Kursmomentet INLA (värt 1,5 poäng) examineras genom en muntlig och skriftlig presentation av en inlämningsuppgift. Den skriftliga delen betygssätts med betygsskalan A-F. Den muntliga delen betygssätt enligt U, G eller VG. Det muntliga betyget har betydelse eftersom det betyget avgör om slutbetyget, dvs. medelvärdet av betygen på TEN2 och skriftliga delen av INLA avrundas neråt eller uppåt.
INLA examinerar följande kursmål:
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.
Inlämningsuppgiften måste redovisas muntligt före tentan och lämnas in skriftligen
senast den 29 oktober, kl. 23.59.
Du får välja mellan en
utvärderingsuppgift eller en labbuppgift. Inlämningsuppgiften får göras
i en tvåmannagrupp och exempel finns beskrivna
här, men du kan också komma överens med kursledaren om ett eget
ämne. Både utvärderingsuppgifter
och labbuppgifterna ska redovisas både skriftligt och muntligt. Den muntliga redovisningen sker vid speciella
redovisningstillfällen som hålls veckan före ordinarietentan. Vid
varje redovisningstillfälle kommer fyra eller fem uppgifter att presenteras.
Inlämningsuppgiften betygsätts, och vid betygsättningen tas hänsyn
såväl till innehåll som den skriftliga och muntliga presentationens
kvalitet.
Inlämningsuppgiften skall redovisas muntligt på seminarium, se vecka 42 i
kursplanschemat
Du får inte gå upp på den skriftliga tentan förrän
du har redovisat inlämningsuppgiften muntligt!
Kursmomentet LAB2
Kursmomentet består av sex laborationer
som görs i grupper om högst två personer.
För labbkursen finns endast betyget U eller G. Varje laboration som är godkänd på dagen labben genomförs enligt schemat ger en bonuspoäng till tentan. LAB2 examinerar följande kursmål:
- praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
Kurskatalog
Kursen har en katalog på Unixdatorerna: /info/sprakt09. På
denna katalog finns textfiler, programskelett, program och liknande som har med kursen
att göra.
Nadas terminalsalar
Laborationerna kommer att ske i terminalsalarna Brun, Grå och Karmosin. Det finns arbetsmiljöregler
för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.
På KTHs
centrala bokningssystem kan ni se om terminalsalarna är bokade av andra kurser om ni vill arbeta med laborationerna utanför kursens schema.
Synpunkter på kursen
Eftersom denna kurs kommer att ges för många elever under flera års
tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång
till kursledaren. En datorstödd
kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna. Läs gärna
förra årets
kursanalys.
Språkteknologilänkar
Viggos samlade språktekniklänkar
Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval -
C. J. van RIJSBERGEN