Språkteknologi, 6 hp
KursPM sprakt10
Kursen i språkteknologi är en kurs som behandlar språkteknologi med fokus på text. Kursen har dels en teoretisk del, dels en praktisk där teorin undersöks i form av kortare laborationer. Kursen examineras med laborationer, salstenta samt en inlämningsuppgift.
Lärare
Kursledare är Ola Knutsson
. Mottagning efter överenskommelse. Övriga föreläsare är Viggo Kann, Johan Boye, Martin
Hassel , och Magnus Rosell. Dessutom
medverkar Peter Svanberg, Joakim Gustafsson, Hercules Dalianis och Sumithra Velupillai som gästföreläsare.
Kursens mål
Ni skall efter kursen kunna:
- förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
- använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
- förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
- praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
- analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
- förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.
Kurslitteratur
Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken
ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå
på alla föreläsningar.
Kursbok
Speech and Language
Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns
på kårbokhandeln. Obs! Ny upplaga säljs av kårbokhandeln, den kostar 485 kr.
Texter som delas ut vid kursstart
Kursbunt
Kursbunten är numera endast elektronisk. Vi uppmanar er att läsa artiklarna i denna.
Papper som delas ut under kursens gång kommer att finnas i en hylla märkt med kursens namn
utanför Studentexpeditionen.
Kursupplägg
Varje vecka hålls två till tre föreläsningar, en tillämpningsföreläsning
och en terminalövning (viss variation kan förekomma). På föreläsningarna gås teorin igenom.
På tillämpningsföreläsningarna visas hur teorin kan tillämpas
i en språkteknologisk produkt. På terminalövningarna får du
själv tillämpa teorin i liten skala.
Kursplan
Följande kursplansschema
visar vad som kommer att behandlas när i kursen. Varje föreläsning
och labb presenteras kort på en egen webbsida. Ha för vana att läsa
igenom den webbsidan innan du går till undervisningen, för där står
vilken litteratur som kommer att gås igenom och ifall det är något
du bör förbereda först.
-
Kursregistrering
Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen
för ditt utbildningsprogram.
Endast de teknologer som studievägledningen lagt in i Ladok som studerande
på en kurs kan godkännas på kursen. Vill du läsa en kurs som
inte är obligatorisk för dig måste du alltså först välja
kursen vid ditt programs studievägledning som måste godkänna ditt
val.
Så snart kursen börjat måste du registrera dig på den. Detta görs här. Logga in med ditt KTH-id, markera "sprakt10", och klicka "Jag går kursen".
Registrera dig så snart som
möjligt efter att kursen börjat!
Laborationer
Labbkursen består av sex laborationer
som görs i grupper om högst två personer.
Dessa labbar utgör kursmomentet LAB2, värt 1,5 poäng.
Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör
alla sex labbarna inom ett år från kursens slut har kursledaren rätt
att kräva att du gör samtliga labbar i den nya kursomgången.
Teoriuppgifter
Till varje laboration finns en teoriuppgift knuten. Teoriuppgifterna görs individuellt. Syftet är att uppmuntra till tidigare inläsning av stoffet. Varje teoriuppgift skall redovisas på papper (ca. 100 ord) vid aktuellt labbtillfälle. Hur bonuspoängen fungerar beskrivs nedan. Teoriuppgifterna är inte obligatoriska utan skall ses som ett stöd för att utveckla de teoretiska kunskaperna i språkteknologi.
Bonuspoäng
Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i
fas med undervisningen.
Praktiska bonuspoäng
För varje labb som redovisas på rätt redovisningstillfälle,
erhålls en bonuspoäng. Med rätt redovisningstillfälle avses den dag och tid som den aktuella laborationen är schemalagd. Man skall helst redovisa i terminalsalen vid labbtillfället, men laborationslösningar som lämnas in senast 23.59 labbdagen kommer också att ge bonuspoäng. Summan av dessa poäng adderas till den på problemdelen på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat
från kursstart. Bonuspoäng kan endast fås det år som labbresultatet
rapporteras.
Teoretiska bonuspoäng
Teoretiska bonuspoäng erhålls genom att teoriuppgifter som beskrivs på varje labbsida redovisa på genom inlämning på papper på labbdagen. Teoriuppgifterna görs individuellt. De teoretiska bonuspoängen gäller på den teoretiska delen av tentan. Dessa teoriuppgifter är frivilliga, men de ger möjlighet att med större säkerhet klara teoridelen på tentan.
Hederskodex
Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter,
tentor m.m.) ska du göra själv, förutom att labbarna kan göras
i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna
redogöra i detalj även för vad labbkompisen skrivit.
Ibland, speciellt när man skriver program, kan det vara nödvändigt
att fråga någon annan (en kamrat eller en handledare) om hjälp med
att hitta fel. Detta är tillåtet förutsatt att du uppfyller
följande villkor.
- Om du fått hjälp med mer än bara någon enstaka rad i programmet
ska du ge ett skriftligt erkännande till den som hjälpte till, lämpligen
i form av en kommentarrad överst i programmet, som talar om vem som hjälpt
dig med vad.
- Du måste förstå hela den färdiga lösningen, även
de delar du fått hjälp med.
Varje annan form av samarbete och utnyttjande av andras lösningar betraktas
som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar
alla bonuspoäng eller får göra en ny uppgift.
Läs mer om Hederskodex
och regler för examination vid CSC:s kurser
Examination
Kursen innehåller följande moment:
- TEN2 som är en salstenta (3 poäng)
- INLA som är en inlämningsuppgift (1,5 poäng).
- LAB2 som är 6 laborationer (1,5 poäng)
Slutbetyget är medelvärdet av betygen på inlämningsuppgiften
och den skriftliga tentan, avrundat utifrån resultatet på den muntliga delen på INLA. Ett VG på den muntliga delen på INLA gör att medelvärdet avrundas uppåt.
Kursmomentet TEN2
Kursmomentet TEN2 (värt 3 poäng) examineras med en salstenta.
TEN2 examinerar följande kursmål:
- förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
- klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
- förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
Det är en vanlig skriftlig tenta med frågor på hela kursen.
Tentan är indelad i två delar:
- Del 1 (20 tentapoäng): Denna del måste du klara för att bli godkänd på kursen. Minst 15 poäng krävs för att bli godkänd på denna del. Denna del har en teoretisk inrikning.
- Del 2 (30 tentapoäng): Denna del har en problemorienterad inriktning. Om du spikar del 1 måste du ta minst 5 poäng på denna del för att få betyg E på tentan.
Betygsgränser enligt följande: F: 0-19, Fx: 20-24, E: 25-29 poäng, D: 30-34 poäng, C: 35-39 poäng, B: 40-44 poäng, A: 45-50 poäng.
En exempeltenta finns
här
Tid och plats för ordinarietentan är torsdagen den 21 oktober 2010, 09-13, i sal L21, L22 och L31.
Inga hjälpmedel får användas på tentan förutom på del 2 då kursboken
Speech and Language Processing av Jurafsky & Martin får användas.
Klagomål på
rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor
från det att tentaresultatet anslagits.
Kursmomentet INLA
Kursmomentet INLA (värt 1,5 poäng) examineras genom en muntlig och skriftlig presentation av en inlämningsuppgift. Den skriftliga delen betygssätts med betygsskalan A-F. Den muntliga delen betygssätt enligt U, G eller VG. Det muntliga betyget har betydelse eftersom det betyget avgör om slutbetyget, dvs. medelvärdet av betygen på TEN2 och skriftliga delen av INLA avrundas neråt eller uppåt.
INLA examinerar följande kursmål:
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
- använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.
Inlämningsuppgiften måste redovisas muntligt före tentan och lämnas in skriftligen
senast den 28 oktober, kl. 23.59.
Du får välja mellan en
utvärderingsuppgift eller en labbuppgift. Inlämningsuppgiften får göras
i en tvåmannagrupp och exempel finns beskrivna här, men du kan också komma överens med kursledaren om ett eget
ämne. Både utvärderingsuppgifter
och labbuppgifterna ska redovisas både skriftligt och muntligt. Den muntliga redovisningen sker vid speciella
redovisningstillfällen som hålls veckan före ordinarietentan. Vid
varje redovisningstillfälle kommer fyra eller fem uppgifter att presenteras.
Inlämningsuppgiften betygsätts, och vid betygsättningen tas hänsyn
såväl till innehåll som den skriftliga och muntliga presentationens
kvalitet.
Inlämningsuppgiften skall redovisas muntligt på seminarium, se kursplanschemat
Du får inte gå upp på den skriftliga tentan förrän
du har redovisat inlämningsuppgiften muntligt!
Muntlig presentation
Den muntliga presentationen betygssätt med VG, G eller U.
Betyget har betydelse för slutbetyget.
VG:
Förberedelse: mycket bra
Tid: utnyttjar tiden bra
Talet: mycket tydligt
Genomförande: mycket bra.
G:
Förberedelse: bra
Tid: håller tiden
Talet: tydligt
Genomförande: bra.
U:
Förberedelse: saknas
Tid: håller inte tiden
Talet: otydligt
Genomförande: mindre bra.
Kursmomentet LAB2
Kursmomentet består av sex laborationer
som görs i grupper om högst två personer.
För labbkursen finns endast betyget U eller G. Varje laboration som är godkänd på dagen labben genomförs enligt schemat ger en bonuspoäng till tentan. LAB2 examinerar följande kursmål:
- praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
- förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
Betygskriterier
För att tydliggöra hur lärandemålen examineras och bedöms finns det betygskriterier för varje lärandemål. Dessa finns här.
Kurskatalog
Kursen har en katalog på Unixdatorerna: /info/sprakt10. På
denna katalog finns textfiler, programskelett, program och liknande som har med kursen
att göra.
CSC:s terminalsalar
Laborationerna kommer att ske i terminalsalarna Grön och Brun. Det finns arbetsmiljöregler
för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.
På KTHs
centrala bokningssystem kan ni se om terminalsalarna är bokade av andra kurser om ni vill arbeta med laborationerna utanför kursens schema.
Synpunkter på kursen
Eftersom denna kurs kommer att ges för många elever under flera års
tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång
till kursledaren. En datorstödd
kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna. Läs gärna
förra årets
kursanalys.
Språkteknologilänkar
Viggos samlade språktekniklänkar
Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval -
C. J. van RIJSBERGEN