bild
Skolan för
datavetenskap
och kommunikation
KTH / CSC / Kurser / DH2418 / sprakt10

Språkteknologi, 6 hp

KursPM sprakt10

Kursen i språkteknologi är en kurs som behandlar språkteknologi med fokus på text. Kursen har dels en teoretisk del, dels en praktisk där teorin undersöks i form av kortare laborationer. Kursen examineras med laborationer, salstenta samt en inlämningsuppgift.

Lärare

Kursledare är Ola Knutsson . Mottagning efter överenskommelse. Övriga föreläsare är Viggo Kann, Johan Boye, Martin Hassel , och Magnus Rosell. Dessutom medverkar Peter Svanberg, Joakim Gustafsson, Hercules Dalianis och Sumithra Velupillai som gästföreläsare.

Kursens mål

Ni skall efter kursen kunna:
 • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
 • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
 • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
 • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
 • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
 • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
 • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
 • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
 • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
 • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.

Kurslitteratur

Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå på alla föreläsningar.

Kursbok

Speech and Language Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns på kårbokhandeln. Obs! Ny upplaga säljs av kårbokhandeln, den kostar 485 kr.

Texter som delas ut vid kursstart

Kursbunt

Kursbunten är numera endast elektronisk. Vi uppmanar er att läsa artiklarna i denna. Papper som delas ut under kursens gång kommer att finnas i en hylla märkt med kursens namn utanför Studentexpeditionen.

Kursupplägg

Varje vecka hålls två till tre föreläsningar, en tillämpningsföreläsning och en terminalövning (viss variation kan förekomma). På föreläsningarna gås teorin igenom. På tillämpningsföreläsningarna visas hur teorin kan tillämpas i en språkteknologisk produkt. På terminalövningarna får du själv tillämpa teorin i liten skala.

Kursplan

Följande kursplansschema visar vad som kommer att behandlas när i kursen. Varje föreläsning och labb presenteras kort på en egen webbsida. Ha för vana att läsa igenom den webbsidan innan du går till undervisningen, för där står vilken litteratur som kommer att gås igenom och ifall det är något du bör förbereda först.

Kursregistrering

Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen för ditt utbildningsprogram.

Endast de teknologer som studievägledningen lagt in i Ladok som studerande på en kurs kan godkännas på kursen. Vill du läsa en kurs som inte är obligatorisk för dig måste du alltså först välja kursen vid ditt programs studievägledning som måste godkänna ditt val.

Så snart kursen börjat måste du registrera dig på den. Detta görs här. Logga in med ditt KTH-id, markera "sprakt10", och klicka "Jag går kursen".

Registrera dig så snart som möjligt efter att kursen börjat!

Laborationer

Labbkursen består av sex laborationer som görs i grupper om högst två personer. Dessa labbar utgör kursmomentet LAB2, värt 1,5 poäng.

Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör alla sex labbarna inom ett år från kursens slut har kursledaren rätt att kräva att du gör samtliga labbar i den nya kursomgången.

Teoriuppgifter

Till varje laboration finns en teoriuppgift knuten. Teoriuppgifterna görs individuellt. Syftet är att uppmuntra till tidigare inläsning av stoffet. Varje teoriuppgift skall redovisas på papper (ca. 100 ord) vid aktuellt labbtillfälle. Hur bonuspoängen fungerar beskrivs nedan. Teoriuppgifterna är inte obligatoriska utan skall ses som ett stöd för att utveckla de teoretiska kunskaperna i språkteknologi.

Bonuspoäng

Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i fas med undervisningen.

Praktiska bonuspoäng

För varje labb som redovisas på rätt redovisningstillfälle, erhålls en bonuspoäng. Med rätt redovisningstillfälle avses den dag och tid som den aktuella laborationen är schemalagd. Man skall helst redovisa i terminalsalen vid labbtillfället, men laborationslösningar som lämnas in senast 23.59 labbdagen kommer också att ge bonuspoäng. Summan av dessa poäng adderas till den på problemdelen på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat från kursstart. Bonuspoäng kan endast fås det år som labbresultatet rapporteras.

Teoretiska bonuspoäng

Teoretiska bonuspoäng erhålls genom att teoriuppgifter som beskrivs på varje labbsida redovisa på genom inlämning på papper på labbdagen. Teoriuppgifterna görs individuellt. De teoretiska bonuspoängen gäller på den teoretiska delen av tentan. Dessa teoriuppgifter är frivilliga, men de ger möjlighet att med större säkerhet klara teoridelen på tentan.

 

Hederskodex

Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter, tentor m.m.) ska du göra själv, förutom att labbarna kan göras i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna redogöra i detalj även för vad labbkompisen skrivit.

Ibland, speciellt när man skriver program, kan det vara nödvändigt att fråga någon annan (en kamrat eller en handledare) om hjälp med att hitta fel. Detta är tillåtet förutsatt att du uppfyller följande villkor.

 • Om du fått hjälp med mer än bara någon enstaka rad i programmet ska du ge ett skriftligt erkännande till den som hjälpte till, lämpligen i form av en kommentarrad överst i programmet, som talar om vem som hjälpt dig med vad.
 • Du måste förstå hela den färdiga lösningen, även de delar du fått hjälp med.

Varje annan form av samarbete och utnyttjande av andras lösningar betraktas som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar alla bonuspoäng eller får göra en ny uppgift.

Läs mer om Hederskodex och regler för examination vid CSC:s kurser

Examination

Kursen innehåller följande moment:
 • TEN2 som är en salstenta (3 poäng)
 • INLA som är en inlämningsuppgift (1,5 poäng).
 • LAB2 som är 6 laborationer (1,5 poäng)

Slutbetyget är medelvärdet av betygen på inlämningsuppgiften och den skriftliga tentan, avrundat utifrån resultatet på den muntliga delen på INLA. Ett VG på den muntliga delen på INLA gör att medelvärdet avrundas uppåt.

Kursmomentet TEN2

Kursmomentet TEN2 (värt 3 poäng) examineras med en salstenta. TEN2 examinerar följande kursmål:

 • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
 • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
 • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
 • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
 • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
Det är en vanlig skriftlig tenta med frågor på hela kursen. Tentan är indelad i två delar:
 • Del 1 (20 tentapoäng): Denna del måste du klara för att bli godkänd på kursen. Minst 15 poäng krävs för att bli godkänd på denna del. Denna del har en teoretisk inrikning.
 • Del 2 (30 tentapoäng): Denna del har en problemorienterad inriktning. Om du spikar del 1 måste du ta minst 5 poäng på denna del för att få betyg E på tentan.
Betygsgränser enligt följande: F: 0-19, Fx: 20-24, E: 25-29 poäng, D: 30-34 poäng, C: 35-39 poäng, B: 40-44 poäng, A: 45-50 poäng. En exempeltenta finns härTid och plats för ordinarietentan är torsdagen den 21 oktober 2010, 09-13, i sal L21, L22 och L31.

Inga hjälpmedel får användas på tentan förutom på del 2 då kursboken Speech and Language Processing av Jurafsky & Martin får användas.

Klagomål på rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor från det att tentaresultatet anslagits.

Kursmomentet INLA

Kursmomentet INLA (värt 1,5 poäng) examineras genom en muntlig och skriftlig presentation av en inlämningsuppgift. Den skriftliga delen betygssätts med betygsskalan A-F. Den muntliga delen betygssätt enligt U, G eller VG. Det muntliga betyget har betydelse eftersom det betyget avgör om slutbetyget, dvs. medelvärdet av betygen på TEN2 och skriftliga delen av INLA avrundas neråt eller uppåt.

INLA examinerar följande kursmål:

 • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
 • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
 • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
 • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.

Inlämningsuppgiften måste redovisas muntligt före tentan och lämnas in skriftligen senast den 28 oktober, kl. 23.59.

Du får välja mellan en utvärderingsuppgift eller en labbuppgift. Inlämningsuppgiften får göras i en tvåmannagrupp och exempel finns beskrivna här, men du kan också komma överens med kursledaren om ett eget ämne. Både utvärderingsuppgifter och labbuppgifterna ska redovisas både skriftligt och muntligt. Den muntliga redovisningen sker vid speciella redovisningstillfällen som hålls veckan före ordinarietentan. Vid varje redovisningstillfälle kommer fyra eller fem uppgifter att presenteras. Inlämningsuppgiften betygsätts, och vid betygsättningen tas hänsyn såväl till innehåll som den skriftliga och muntliga presentationens kvalitet.Inlämningsuppgiften skall redovisas muntligt på seminarium, se kursplanschematDu får inte gå upp på den skriftliga tentan förrän du har redovisat inlämningsuppgiften muntligt!

Muntlig presentation
Den muntliga presentationen betygssätt med VG, G eller U.

Betyget har betydelse för slutbetyget.

VG:
Förberedelse: mycket bra
Tid: utnyttjar tiden bra
Talet: mycket tydligt
Genomförande: mycket bra.

G:
Förberedelse: bra
Tid: håller tiden
Talet: tydligt
Genomförande: bra.

U:
Förberedelse: saknas
Tid: håller inte tiden
Talet: otydligt
Genomförande: mindre bra.

 

Kursmomentet LAB2

Kursmomentet består av sex laborationer som görs i grupper om högst två personer. För labbkursen finns endast betyget U eller G. Varje laboration som är godkänd på dagen labben genomförs enligt schemat ger en bonuspoäng till tentan. LAB2 examinerar följande kursmål:
 • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
 • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
 • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.

 

Betygskriterier

För att tydliggöra hur lärandemålen examineras och bedöms finns det betygskriterier för varje lärandemål. Dessa finns här.

Kurskatalog

Kursen har en katalog på Unixdatorerna: /info/sprakt10. På denna katalog finns textfiler, programskelett, program och liknande som har med kursen att göra.

CSC:s terminalsalar

Laborationerna kommer att ske i terminalsalarna Grön och Brun. Det finns arbetsmiljöregler för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.

KTHs centrala bokningssystem kan ni se om terminalsalarna är bokade av andra kurser om ni vill arbeta med laborationerna utanför kursens schema.

Synpunkter på kursen

Eftersom denna kurs kommer att ges för många elever under flera års tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång till kursledaren. En datorstödd kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna. Läs gärna förra årets kursanalys.

Språkteknologilänkar


Viggos samlade språktekniklänkar

Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval - C. J. van RIJSBERGEN

Copyright © Sidansvarig: Ola Knutsson <knutsson@csc.kth.se>
Uppdaterad 2010-10-14