Språkteknologi
Inlämningsuppgift, Spr�kteknologi DH2418, ht 2009
Du får välja mellan en utväderingsuppgift eller en labbuppgift. Inlämningsuppgiften
f�r göras enskilt eller i grupper om tv�.
Inlämningsuppgifterna bygger oftast p� de f�rslag som ges nedan, men du kan också komma överens med kursledaren om en egen utv�rderingsuppgift eller labbuppgift.
Både uppsatserna
och labbuppgifterna ska redovisas både skriftligt och muntligt vid speciella
redovisningstillfällen som hålls veckan före ordinarietentan. Vid
varje redovisningstillfälle kommer sex uppgifter att presenteras.
Inlämningsuppgiften betygsätts, och vid betygsättningen tas hänsyn
såväl till innehåll som den skriftliga och muntliga presentationens
kvalitet. Du får inte gå upp på den skriftliga tentan förrän
du har redovisat inlämningsuppgiften muntligen! Den skriftliga delen f�r du dock l�mna in en vecka efter ordinarietentan, det vill s�ga den 29 oktober, senast kl. 23.59. Krav p� utv�rderingsuppgifter respektive labbuppgifter finns nedan.
Mer information om uppgiften f�r du genom att kontakta den person som st�r inom parentes efter f�rslagen nedan. Granskade och ofta bra artiklar hittar du t.ex. p� ACL Anthology
Anv�ndbara verktyg hittar du bland annat bland Spr�kteknologigruppens verktyg.
Anv�ndbara korpusar, hitta du t.ex. hos Spr�kbanken
Deadlines f�r inl�mningsuppgiften
N�gra deadlines f�r inl�mningsuppgiften:
30/9: Best�m uppgift och kontakta den som st�r som ansvarig f�r uppgiften. Du skall diskutera uppgiften med denna person, och komma fram till ett realistiskt uppl�gg. F�rslag till uppgifter finns nedan.
2/10: Skicka e-brev till kursledaren d�r det framg�r vilken uppgift som du har valt.
9/10: Boka tid f�r redovisning, lediga redovisningstider finns p� nyhetssidan. Man bokar genom ett e-brev till kursledaren.
29/10, kl. 23.59: Slutgiltig version av texten skall vara inl�mnad/inskickad till kursledaren senast vid denna tidpunkt.
Bed�mningsgrunder f�r inl�mningsuppgiften
Eftersom de olika uppgiftena skiljer sig �t i h�g grad, framf�rallt �r skillnaden mellan labbuppgifter och utv�rderingsuppgifter stor, s� �r det sv�rt att s�ga exakt vad som kr�vs. Vad k�nnetecknar en bra skriftlig och muntlig redovisning? De nedan listade bed�mningsgrunderna kan inte appliceras p� alla delar i varje redovisad inl�mningsuppgift. En bra rapport beh�ver inte f� h�gt betyg p� alla kriterier nedan, utan det blir en sammanv�gning av de olika delarna. Det kan i flera fall finns v�l godk�nda inl�mningsuppgifter som helt saknar ett av kriterierna nedan.
- Avgr�nsning: att visa prov p� f�rm�ga att s�tta ramarna f�r arbetet, bl.a. genom kontakter med handledare.
- Spr�kteknologisk h�jd: att utg� ifr�n andras arbete, d�r det �r till�mpbart. Att inte upprepa k�nda misstag.
- Metodval: att kunna strukturera uppgiften, v�lja l�mplig metod f�r varje delmoment.
- Nyhetsv�rde: att visa f�rm�ga till egen l�sning samt att sj�lva l�sningen av uppgiften ger ett litet litet nyhetsv�rde.
- F�r labbuppgiften: att leverera en fungerande prototyp, genomf�ra mindre test/utv�rdering.
- F�r utv�rderingsuppgiften: att kunna hantera olika utv�rderingsbegrepp, v�lja l�mpliga m�tmetoder, l�mpliga utv�rderingsdata, ge resonemang om utv�rderingens validitet.
- Teoretisk f�rst�else: att kunna hantera spr�kteknologiska begrepp och teori i viss utstr�ckning.
- Visa f�rst�else f�r kursens huvudpo�nger: metoder som verkligen fungerar, undvika stark AI, fokus p� program med h�g anv�ndbarhet.
- Rapportens inneh�ll: finns alla v�sentliga delar med: bakgrund, utg�ngspunkt/tanke, metod och resultat?
- Rapportens spr�k: spr�kligt flyt och grad av korrekturl�sning
- Explicita referenser: n�r andras verktyg, lexikon, teorier osv. anv�nds skall detta explicit redovisas.
Förslag på utärderingssuppgifter
- Maskininl�rning f�r morfologisk analys
Unders�k hur maskininl�rning kan anv�ndas f�r morfologisk analys. Det kan handla om svenskans eller annat språks morfologi. Utg� ifr�n n�got f�rdigt verktyg, t.ex. Linguistica (Ola)
- Regler eller statistik eller b�de och?
En st�ndig diskussion inom spr�kteknologin �r om man skall angripa problemen med regelbaserade metoder eller statistiska metoder. Eller �r det rent av en kombination som �r framtiden? G�r en enkel implementation, och utv�rdering. Utg� t.ex. fr�n maskininl�rningslabben, och j�mf�r t.ex. mot ett enkelt regelsystem som bygger p� enklare m�nstermatchning (Ola)
- Hur fungerar grammatikkontrollen i Word j�mf�rt med Granska?
Grammatikkontrollfunktionen i Word �r den enda kommersiella grammatikkontrollen f�r svenska. Vilka fel kan den finna? J�mf�r med Granska. Bygg upp s�v�l en felkorpus som en korpus best�ende av korrekturl�st text. Automatiseras s� mycket som m�jligt av utv�rderingen.(Ola)
- J�mf�rande utv�rderingar av spr�kteknologiska system. J�mf�r t.ex. Stava med stavningskontrollen i Emacs eller Word. Med hj�lp av VisualBasic i Word kan man kan man komma �t Words stavningskontroll. F�rs�k automatisera den j�mf�rande utv�rderingen. Automatisera utv�rdering genom att annotera ett testdata. (Ola)
- Unders�k Grim
Unders�k och testa Grim med anv�ndare eller med en textkorpus. Vilka �r f�r- och nackdelar med den h�r typen av system? (Ola)
- Spr�kteknologi och Open Source/Content
Inventera vilka spr�ktekniska resurser som finns tillg�ngliga som Open Source. Anv�nd n�got av de program f�r att l�sa t.ex. ett enklare klassificeringsproblem f�r svenska, och g�r en enklare utv�rdering. Utv�rderingen kan ha fokus p� hur enkelt det var att anpassa verktyget f�r dina syften.(Ola)
Krav p� utv�rderingsuppgiften
- Rapporten skall inneh�lla minst 1500 ord och max 2500 ord.
- Utv�rderingen skall utg� ifr�n autentiska data.
- Utv�rderingen skall f�rh�lla sig till n�gra av utv�rderingsbegreppen: accuracy, t�ckning (recall), precision.
- Rapporten skall inneh�lla en enklare redovisning av utv�rderingsstatistik.
- Rapporten skall presenteras muntligen i form av ett kortare f�redrag p� 10 minuter.
- Du skall kontakta den som st�r som ansvarig f�r uppsatsuppgiften per e-post. Diskutera ditt uppl�gg med denna person.
- Skriv inte ditt personnummer p� rapporten.
F�rslag p� labbuppgifter
- Rangordning av rättningsförslag med ordprediktionsmetoder
Metoder liknande dem som används vid ordprediktion borde kunna användas
för att ge ett rättstavningsprogram bättre möjligheter att rangordna
rättelseförslag. Tänk igenom och implementera f�r att redovisa dina tanekg�ngar. (Viggo)
- Web 2.0 och spr�kteknologi
Hur kan spr�kteknologiska applikationer anv�nda anv�ndargenererat material som delvis �r taggat? Bygg en enkel demo som utg�r fr�n t.ex. Wikipedia, Flickr eller liknande. H�mta inspiration h�r.
- Palindromer
Palindromer �r kul att leka med tycker m�nga. L�t dig inspireras av Peter Norvigs text om Palindromer .G�r n�got f�r svenska. Kan Stava vara till n�gon hj�lp?
Eller hitta p� n�got helt eget inom samma tema. (Ola).
- Synonym Mining
Folkets synonymlexikon
�r en lista av synomymer graderade av m�nniskor. Anv�nd n�gon metod f�r att ta fram intressanta saker ur den.
Ett f�rslag �r att bygga en grafrepresentation fr�n alla paren och studera och behandla den p� olika s�tt. Grafen blir viktad utifr�n graderingen av synoymerna. Till exempel kan man k�ra bredden- och djupet-f�rst-s�kning p� grafen f�r att hitta l�nga synonymkedjor. Dessa blir ocks� viktade... Andra algoritmer p� grafer kan ocks� vara intressanta. Till exempel: vilken �r den st�rsta klicken i synonymdatat? (Magnus)
- Bootstrapping
Fokusera p� ett litet spr�kteknologiskt problem som delvis kan l�sas med s.k. bootstrapping. Det vill s�ga att man b�rjar med mycket f� spr�kliga data, och sedan arbetar fram mer med t.ex. maskininl�rning. �gna dig g�rna �t n�got annat spr�k �n svenska. Implementera och g�r en liten utv�rdering. H�mta inspiration fr�n maskininl�rningslaborationen. (Magnus)
- Bootstrapping f�r morfologisk analys
Implementera n�gon maskininl�rningsmetod eller heuristisk metod som kan utf�ra n�gon form av morfologisk analys. Det kan handla om svenskans eller annat språks morfologi. Det kan handla om att f�rs�ka hitta fogegr�nsen f�r sammansatta ord i svenska eller n�got annat morfologiskt problem. (Ola)
- Anv�ndbara n-gram
N-gram �r anv�ndbart till mycket inom spr�kteknologin.G�r n�got med n-gram, till exempel f�rfattaridentifiering, och se om
det ger n�got intressant. (Viggo)
- Rebusbyggare
Enkel text -> bild. Sl� upp t.ex. adjektiv + substantiv
p� images.google.com och g�r enkla regler f�r prepositioner, typ "en
gul bil p� en gr�smatta" ger en bild av en gul bil ovanp� en bild av
en gr�smatta. Mer avancerade angreppss�tt borde ocks� kunna fungera,
som att ta s� l�nga substr�ngar som m�jligt som ger tr�ff p� Google. (Magnus)
- Sn�lGranska light
Sn�lGranska �r en spr�kgranskare som har utvecklats med ringa m�nsklig insats. Bygg en egen enkel sn�lgranskare genom att generera en feltyp, m�rk upp den och tr�na en maskininl�rningsalgoritm p� materialet. G�r en enkel utv�rdering. (Ola)
- Sammans�ttningssplittring och informationss�kning
Anv�nda den sammans�ttningssplittrare som finns utvecklad p� Nada f�r att unders�ka om den kan f�rb�ttra en enkel s�kmotor f�r svenska. S�ker man efter cykelsadlar f�r man kanske inte n�gon tr�ff men cykel+sadlar kan kanske ge n�gra tr�ffar som �r relevanta. (Magnus)
- Fogemorfemsregler i Stava
Programmet Stava har suffixregler som gör att alla böjningsformer inte
behöver finnas i ordlistan. Däremot saknas det för närvarande
regler för fogemorfem. Man skulle till exempel vilja ha en regel som säger
att om ordet xxx-ing finns i ordlistan så ska xxx-ings vara ett tillåtet
förled i sammansättningar. Skapa ett antal lämpliga fogemorfemsregler,
och försök få en uppfattning om ungefär hur stor del av förleden
man kan täcka in med dessa generella regler och hur stor del man måste
specialbehandla (alltså stoppa in i förledsordlistan). (Se föreläsning
i stavningskontroll). (Viggo)
- Hitta grundform i Stava
Om man automatiskt ska plocka ut de informationsbärande orden ur ett dokument
för att senare kunna söka på dem vill man ofta återföra
orden på grundform. Modifiera modulen suffix.c i Stava så att den för
varje ord i inmatningen skriver ut dess grundform. Du kommer dels att behöva
ändra funktionen CheckSuffix och dels se till att huvudmodulen stava.c anropar
CheckSuffix för varje ord i inmatningen. Källkoden till dessa moduler finns
under /info/sprakt07/stava. (Viggo)
- Random indexing med st�rre korpus
Uppgiften g�r ut p� att bygga ut laborationen "Statistisk lexikal semantik". Du skall framf�rallt utg� ifr�n ett st�rre textmaterial, och t.ex. j�mf�ra hur pass mycket varje ny textm�ngd som du l�gger till korpusen f�rb�ttrar resultatet. (Magnus)
- Implementera och utv�rdera en pronomenidentifierare
Uppgiften g�r ut p� att implementera ett program som, t.ex. baserat p� utmatningen fr�n GTA (Granskas Text Analysator), listar ut till vilka antecedenter pronomen i l�pande text refererar till.
F�rslag p� algoritm att implementera och utv�rdera �r Mitkov 98 och f�rslag p� textgenre �r svensk nyhetstext, dvs KTH News Corpus.
Givetvis f�r du/ni g�rna implementera eller modifiera n�gon annan algoritm, f�r n�got annat spr�k �n svenska, givet att du/ni har tillg�ng till de resurser som beh�vs. (Ola)
- G�r en tr�dritare till GTA
Utnyttja IOB-utdata fr�n GTA. H�r finns GTA (Ola)
-
Kollokationsanalys
Implementera n�gon enkel algoritm f�r kollokationsanalys. S�k i litteraturen efter l�mpliga algoritmer, h�mta frekvenslistor fr�n Spr�kbanken. Du beh�ver ocks� en st�rre textm�ngd, t.ex. KTH News Corpus. (Ola)
-
Maskin�vers�ttning genom direkt�vers�ttning
Implementera ett program som utg�r ifr�n direkt�vers�ttningsmetoden.
Ett som till exempel bara sl�r upp ord
i ett lexikon och tar f�rsta �vers�ttningen, eller sl� upp dem p�
internet. Testa sedan att anv�nda t.ex. n-gram f�r att f�rb�ttra ditt program. (Ola).
-
Genusbytare
Testa att bygga en genusbytare som t.ex. byter ut Carl (Hamilton) mot Lisa och han mot hon i text. Unders�k hur det blir p� n�gra klassiska texter. Vad beh�ver man mer byta ut f�r att t.ex. g�ra om en manlig hj�lte till en kvinnlig dito?
(Ola)
-
Utveckla en enkel grammatik f�r att generera genrespecifika texter
Utveckla en grammatik f�r att skapa texter inom en mycket specifik genre, h�mta inspiration fr�n MIT:s forskningsartikelsgenerator. (Ola)
Krav p� labbuppgiften
- Du skall kontakta den som st�r som ansvarig f�r uppsatsuppgiften per e-post. Diskutera ditt uppl�gg med denna person.
- Labbuppgiften skall redovisas skriftligen genom en rapport som beskriver programmet som du gjort p� minst 1000 ord.
- Labbuppgiften skall presenteras muntligen i form av ett kortare f�redrag p� 10 minuter.
- Tydliga referenser om programmet bygger p� n�got annat.
- Skriv riktiga referenser enligt vedertaget system.
- Skriv inte ditt personnummer p� rapporten eftersom alla rapporter brukar publiceras p� kurssidorna.
|