bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi, 6 hp

KursPM sprakt08

Kursen i språkteknologi är en kurs som behandlar språkteknologi med fokus på text. Kursen har dels en teoretisk del, dels en praktisk där teorin undersöks i form av kortare laborationer. Kursen examineras med laborationer, salstenta samt en inlämningsuppgift.

Lärare

Kursledare är Ola Knutsson . Mottagning efter överenskommelse, rum 4542, plan 5 i D-huset, telefon 08-790 62 81. Övriga föreläsare är Viggo Kann, Martin Hassel , Magnus Rosell , och Anders Green. Dessutom medverkar Peter Svanberg, Joakim Gustafsson, Hercules Dalianis och Sumithra Velupillai som gästföreläsare.

Kursens mål

Ni skall efter kursen kunna:
  • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
  • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
  • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
  • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
  • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
  • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
  • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
  • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.
  • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
  • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.

Kurslitteratur

Kurslitteraturen ska läsas på egen hand parallellt med kursen. Kursboken ger en mycket bra introduktion till hela området, vissa avsnitt har vi dock kompletterat med vetenskapliga artiklar som finns med i kursbunten. Detta på grund av områdets snabba utveckling. Vi rekommenderar alla att följa kursen aktivt och gå på alla föreläsningar.

Kursbok

Speech and Language Processing av Jurafsky & Martin, ISBN 0-13-095069-6 Prentice Hall, finns på kårbokhandeln. Obs! Ny upplaga säljs av kårbokhandeln, den kostar 485 kr. Sidhänvisningarna på kurssidorna är från den tidigare upplagan. Detta kommer att uppdateras så snart som möjligt.

Texter som delas ut vid kursstart

Kursbunt

Kursbunten kan köpas på CSC studentexpedition. Pris 60 kr. Papper som delas ut under kursens gång kommer att finnas i en hylla märkt med kursens namn utanför studentexpeditionen.

Kursupplägg

Varje vecka hålls två föreläsningar, en tillämpningsföreläsning och en terminalövning (viss variation kan förekomma). På föreläsningarna gås teorin igenom. På tillämpningsföreläsningarna visas hur teorin kan tillämpas i en språkteknologisk produkt. På terminalövningarna får du själv tillämpa teorin i liten skala.

Kursplan

Följande kursplansschema visar vad som kommer att behandlas när i kursen. Varje föreläsning och labb presenteras kort på en egen webbsida. Ha för vana att läsa igenom den webbsidan innan du går till undervisningen, för där står vilken litteratur som kommer att gås igenom och ifall det är något du bör förbereda först.

Kursregistrering

Om du vill gå kursen ska du anmäla det i förväg till kansliet/studievägledningen för ditt utbildningsprogram.

Endast de teknologer som studievägledningen lagt in i Ladok som studerande på en kurs kan godkännas på kursen. Vill du läsa en kurs som inte är obligatorisk för dig måste du alltså först välja kursen vid ditt programs studievägledning som måste godkänna ditt val.

Så snart kursen börjat måste du registrera dig på den. Detta görs med kommandot

res checkin sprakt08

på någon av Nadas Unixdatorer. Registrera dig så snart som möjligt efter att kursen börjat!

För din egen skull bör du också ge kommandot

course join sprakt08

Detta kommando gör tre saker:

  • Du får se eventuella nya meddelanden från kursledaren varje gång du loggar in.
  • Du får kursens användarmiljö, dvs alla initieringar som kursledaren tycker att kursdeltagarna bör ha görs vid varje inloggning.
  • Du får en speciell kurshemsida som startsida i Netscape.

När du är klar med kursen ger du kommandot

course leave sprakt08

för att återställa allt.

Laborationer

Labbkursen består av sex laborationer som görs i grupper om högst två personer. Dessa labbar utgör kursmomentet LAB2, värt 1,5 poäng.

Enstaka labbar får inte sparas till annan kursomgång. Om du inte fullgör alla sex labbarna inom ett år från kursens slut har kursledaren rätt att kräva att du gör samtliga labbar i den nya kursomgången.

Bonuspoäng

Vi tillämpar ett bonussystem för att uppmuntra eleverna att ligga i fas med undervisningen. För varje labb som redovisas på rätt redovisningstillfälle, erhålls en bonuspoäng. Med rätt redovisningstillfälle avses den dag och tid som den aktuella laborationen är schemalagd. Man skall helst redovisa i terminalsalen vid labbtillfället, men laborationslösningar som lämnas in senast 23.59 labbdagen kommer också att ge bonuspoäng. Summan av dessa poäng adderas till den på tentan uppnådda poängsumman. Detta gäller ett kalenderår räknat från kursstart. Bonuspoäng kan endast fås det år som labbresultatet rapporteras. När du är inloggad kan du se vilka labbar du är godkänd på genom att ge kommandot

res show sprakt08

Hederskodex

Grundregeln är att det jobb du gör i kursen (labbar, inlämningsuppgifter, tentor m.m.) ska du göra själv, förutom att labbarna kan göras i tvåmannagrupper. Vid redovisning av labbar ska båda i gruppen kunna redogöra i detalj även för vad labbkompisen skrivit.

Ibland, speciellt när man skriver program, kan det vara nödvändigt att fråga någon annan (en kamrat eller en handledare) om hjälp med att hitta fel. Detta är tillåtet förutsatt att du uppfyller följande villkor.

  • Om du fått hjälp med mer än bara någon enstaka rad i programmet ska du ge ett skriftligt erkännande till den som hjälpte till, lämpligen i form av en kommentarrad överst i programmet, som talar om vem som hjälpt dig med vad.
  • Du måste förstå hela den färdiga lösningen, även de delar du fått hjälp med.

Varje annan form av samarbete och utnyttjande av andras lösningar betraktas som ett brott mot hederskodexen och kan bestraffas, t ex genom att du förlorar alla bonuspoäng eller får göra en ny uppgift.

Läs mer om Hederskodex och regler för examination vid Nadas kurser

Examination

Kursen innehåller följande moment:
  • TEN2 som är en salstenta (3 poäng)
  • INLA som är en inlämningsuppgift (1,5 poäng).
  • LAB2 som är 6 laborationer (1,5 poäng)

Slutbetyget är medelvärdet av betygen på inlämningsuppgiften och den skriftliga tentan, avrundat utifrån resultatet på den muntliga delen på INLA. Ett VG på den muntliga delen på INLA gör att medelvärdet avrundas uppåt.

Kursmomentet TEN2

Kursmomentet TEN2 (värt 3 poäng) examineras med en salstenta. TEN2 examinerar följande kursmål:

  • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik.
  • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system.
  • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning.
  • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
  • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten.
Det är en vanlig skriftlig tenta med frågor på hela kursen. Tentan är indelad i två delar:
  • Del 1 (20 tentapoäng): Denna del måste du klara för att bli godkänd på kursen. Minst 15 poäng krävs för att bli godkänd på denna del. Denna del har en teoretisk inrikning.
  • Del 2 (30 tentapoäng): Denna del har en problemorienterad inriktning. Om du spikar del 1 måste du ta minst 5 poäng på denna del för att få betyg E på tentan.
Betygsgränser enligt följande: E: 25-29 poäng, D: 30-34 poäng, C: 35-39 poäng, B: 40-44 poäng, A: 45-50 poäng. En exempeltenta finns här



Tid och plats för ordinarietentan är fredagen den 22 oktober 2008, 9-13, i sal Q11 och Q13.

Inga hjälpmedel får användas på tentan förutom på del 2 då kursboken Speech and Language Processing av Jurafsky & Martin får användas.

Klagomål på rättning av tentan lämnas in skriftligen till kursledaren inom tre veckor från det att tentaresultatet anslagits.

Kursmomentet INLA

Kursmomentet INLA (värt 1,5 poäng) examineras genom en muntlig och skriftlig presentation av en inlämningsuppgift. Den skriftliga delen betygssätts med betygsskalan A-F. Den muntliga delen betygssätt enligt U, G eller VG. Det muntliga betyget har betydelse eftersom det betyget avgör om slutbetyget, dvs. medelvärdet av betygen på TEN2 och skriftliga delen av INLA avrundas neråt eller uppåt.

INLA examinerar följande kursmål:

  • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer.
  • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program.
  • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
  • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier.
Inlämningsuppgiften måste redovisas muntligt före tentan och lämnas in skriftligen senast den 29 oktober, kl. 23.59.

Du får välja mellan en utvärderingsuppgift eller en labbuppgift. Inlämningsuppgiften får göras i en tvåmannagrupp och exempel finns beskrivna här, men du kan också komma överens med kursledaren om ett eget ämne. Både utvärderingsuppgifter och labbuppgifterna ska redovisas både skriftligt och muntligt. Den muntliga redovisningen sker vid speciella redovisningstillfällen som hålls veckan före ordinarietentan. Vid varje redovisningstillfälle kommer fyra eller fem uppgifter att presenteras. Inlämningsuppgiften betygsätts, och vid betygsättningen tas hänsyn såväl till innehåll som den skriftliga och muntliga presentationens kvalitet.



Inlämningsuppgiften skall redovisas muntligt på seminarium, se vecka 42 i kursplanschemat



Du får inte gå upp på den skriftliga tentan förrän du har redovisat inlämningsuppgiften muntligt!

Kursmomentet LAB2

Kursmomentet består av sex laborationer som görs i grupper om högst två personer. För labbkursen finns endast betyget U eller G. Varje laboration som är godkänd på dagen labben genomförs enligt schemat ger en bonuspoäng till tentan. LAB2 examinerar följande kursmål:
  • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller.
  • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten.
  • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar.

Kurskatalog

Kursen har en katalog på Unixdatorerna: /info/sprakt08. På denna katalog finns textfiler, programskelett, program och liknande som har med kursen att göra.

Nadas terminalsalar

Laborationerna kommer att ske i terminalsalarna Grå och Karmosin. Det finns arbetsmiljöregler för terminalsalarna. Dessa talar om hur man ska bete sig i salarna.

KTHs centrala bokningssystem kan ni se om terminalsalarna är bokade av andra kurser om ni vill arbeta med laborationerna utanför kursens schema.

Synpunkter på kursen

Eftersom denna kurs kommer att ges för många elever under flera års tid är vi tacksamma för synpunkter på kursen. Ge gärna kommentarer om kursen under kursens gång till kursledaren. En datorstödd kursutvärdering kommer att göras. Synpunkter kan lämnas till lärarna. Läs gärna förra årets kursanalys.

Språkteknologilänkar

NorDoknet (Nordisk språkteknologi)
Viggos samlade språktekniklänkar

Språkteknologi i Sverige
Fredriks länkar.
Information Retrieval - C. J. van RIJSBERGEN

Copyright © Sidansvarig: Ola Knutsson <knutsson@nada.kth.se>
Uppdaterad 2008-08-31