- Klustring av e-post
Ett exjobb inom ramen för projektet "IMail - Intelligenta
e-tjänster för eGovernment". Vi har tillgång till en mängd
e-brev till och från Försäkringskassan.
Med textklustring menas att automatiskt dela in en mängd
texter i innehållsgrupper. Klustringsalgoritmer tillämpas
på en representation av texter. Hur denna representation
byggs från den ursprungliga texten påverkar resultatet.
Ett klustringsverktyg finns tillgängligt.
E-post innehåller många delar, så kallade zooner, tex senaste
meddelandet, ursprungligt meddelandet, hälsningsfraser,
inkluderade filer, citat från andra källor och automatiskt
infogad reklam. Det finns metoder och system för att utvinna
dessa delar ur e-breven.
Exjobbet går ut på att studera effekten av att bygga
textrepresentationen för klustring baserad på olika
delar av breven från Försäkringskassan.
Rekommenderade förkunskaper: Programmeringskunskaper och kursen Språkteknologi.
Handledare: Magnus Rosell, KTH CSC
- Normalisering av patientjournaler skrivna på svenska
Mer information
Handledare: Hercules Dalianis
- Verktyg för koreferenslösning (coreference resolution)
Koreferenslösning innebär att man vill ta reda på vilka ord som
syftar till samma objekt, t.ex. att "Göran Persson" och
"Statsministern" syftar på samma sak medan "talarstolen" inte gör
det. In till systemet ger man fritext och ut vill man ha en lista som
talar om att orden A, B och E refererar till samma sak, C och D
refererar båda till samma sak men inte samma som gruppen innan osv.
Numera använder man ofta maskininlärning för att lösa problemet,
vilket har gett lika bra resultat som manuellt konstruerade
system. Saker man kan ta hänsyn till är t.ex.: har fraserna A och B
samma genus? numerus? Är de samma teckensträng? Hur långt ifrån
varandra förekommer de? Har de samma semantisk klass (typ båda är
djur)?
Exjobbet skulle gå ut på att skapa ett system för coreference
resolution på valfritt sätt. Nada har diverse språkverktyg som kan
vara användbara och det finns även fritt tillgängliga verktyg på
andra ställen.
Rekommenderade förkunskaper: Programmeringskunskaper och kursen Språkteknologi.
Handledare: Jonas Sjöbergh (jsh at nada.kth.se)
- Verktyg för Named Entity Recognition
Named Entity Recognition är ett ganska hett forskningsområde med
tillämpningar t.ex. inom automatisk sammanfattning och
informationssökning. Med Named Entity Recognition menar man normalt
att man i fri text ska leta upp alla förekomster av personer,
platsnamn, företagsnamn och liknande. Förutom att leta upp dem ska
man även klassificera dem så man vet vilka som är företag osv.
Nada har en hel del verktyg som kan vara till hjälp, bl.a. en taggare
som hittar i princip alla named entities i en text (för svenska).
Exjobbet skulle gå ut på att ta fram och utvärdera metoder för att
gissa vilken sorts named entity de ord man hittat är. Det finns en
hel del gjort på området sen tidigare, bl.a. för skandinaviska språk
i t.ex. Danmark och Norge. Det finns även program för svenska.
Exempel på saker man skulle kunna använda: lexikon med namn,
maskininlärning matad med information om ordets kontext, Internet.
Rekommenderade förkunskaper: Programmeringskunskaper och kursen Språkteknologi.
Handledare: Jonas Sjöbergh (jsh at nada.kth.se)
- Danish spell checking
The human language technology group at Nada has developed the
Swedish spell checker Stava
(see this article).
In order to adapt the spell checker to another language three word lists and
a set of suffix rules have to be constructed. Only a fluent speaker of the
language can construct these word lists and rules. There exist tools that
help the rule constructor to optimize the rules.
We look for a Danish computer linguist that can help us constructing a
Danish spell checker based on Stava.
Size of diploma work: about 5 months
Instructor: Viggo Kann
Många andra exjobb är tänkbara. Kontakta någon
forskare i gruppen om du är intresserad.