Lägesrapport för CrossCheck för perioden 1 juli-31 december 2003
Denna lägesrapport beskriver vad som hänt i projektet under det andra
halvåret 2003. Första halvåret 2003 beskrevs i den
tidigare lägesrapporten.
Andraspråkskorpus
SSM-korpusen har närmat sig färdigställande. Den har XML-kodats för
att följande struktur ska kunna representeras:
- Header
-
- Uppgift
- Skribent
- Kursnivå
- Datum
- Textkropp
-
- TEI-taggar för Supplied, Given, Damage osv.
Därutöver finns separata filer för skribentinformation och instruktioner
till uppgifter. Ordklasstaggar kommer också att få en egen fil.
Vi har fått tillgång till texter från SFI-prov (svenska för invandrare)
från Inger Lindberg på Centrum för tvåspråkighetsforskning, Stockholms
universitet. Cirka 70000 ord text har fått genomgå samma behandling som
SSM-texterna. Vi har också fått tillgång till ett svenskt
jämförelsematerial av sfi-prov som kommer att fogas till korpusen.
Camilla Bengtsson som skriver en uppsats för Uppsala universitets
språkteknologiprogram håller på med en datorisering av Björn Hammarbergs
ASU-korpus (1999). Hon har under ledning av Björn Hammarberg
specificerat ett designformat för Internetaccess. SSM-korpusen och
SFI-korpusen kommer att ligga nära hennes specifikationer.
Verktyg för sökning och ändring av korpus
I två examensarbeten (Aarflot 2003 och Ihrfors 2003) har en prototyp för
ett korpussökningsverktyg utvecklats. Planen är att detta verktyg i
framtiden ska kunna kopplas till det sökgränssnitt som Camilla Bengtsson
arbetar med. Verktyget använder förindexering av taggbigram och ord för
att sökningen ska gå snabbt.
Ordklasstaggning, lexikon och sammansatta ord
Vår nya datadrivna ordklasstaggare Stomp (Sjöbergh 2003a) finns nu fritt tillgänglig
i form av C++-kod.
Vi har också studerat metoder för automatisk konstruktion av ett nytt
(fritt) lexikon för en ordklasstaggare, med hjälp av en (ej fri) taggad korpus,
diverse ej annoterade texter samt ett antal datadrivna
ordklasstaggare (Sjöbergh 2003b).
Vi har genomfört en studie av metoder för automatisk uppdelning av
sammansatta ord i de ingående ordleden, mer specifikt hur detta bör
göras då flera möjliga uppdelningar/tolkningar finns. Exempel på
faktorer som använts: antal ordled, deras längd, ord och ordled i den
närmsta kontexten, vilka typer av ordled som ofta kombineras med vilka
(baserat på de möjliga ordledens ordklass).
Försök med och utvärdering av helautomatisk robusthetsutvärdering
(till skillnad från den förra halvautomatiska) har gjorts men är
ännu inte utvärderat. Tre olika parsrar ingår i testet.
CrossCheck och Grim
Grim utvecklas inom CrossChecks systerprojekt
The use of language tools for writers in the context of learning Swedish as a second language
som stöds av Vetenskapsrådet. Grim är ett program som ska
stödja inlärning av svenska. Grundtanken är att inläraren ska få
möjlighet att dels få direkt återkoppling vad det gäller stavning och
grammatik, dels att ge inläraren verktyg för att utforska sitt eget
inlärarspråk och målspråket svenska. Grunden i Grim är en enkel
ordbehandlingsmiljö. Grim bygger till stor del på de
språkverktyg som vidareutvecklas och förfinas inom CrossCheck. Grim
är implementerat i Java och bygger på en klient- och server-modell.
Grim är en klient som kommunicerar med olika servrar med olika former
av språklig kompetens. Med denna modell kan alla förbättringar av de
olika språkprogrammen direkt nå användarna. Det är också enkelt att
lägga till nya moduler till Grim. Några av de servrar som har
utvecklats inom CrossCheck och som används i Grim är serverversioner
av Granska, ordböjaren Inflector, och ytparsern GTA. Nya metoder för
grammatikgranskning utvecklade inom CrossCheck som den statistiska
granskaren ProbGranska finns nu också med i Grim. När den
språkgranskare som utvecklas specifikt för skribenter med svenska som
andraspråk är färdig (ett av delmålen med CrossCheck) kommer den
enkelt att kunna införlivas i ett redan väl beprövat och interaktivt
grafiskt gränssnitt.
Grim fungerar på de flesta datorer om de har rätt Javatolk (version
1.4.1 eller senare). Grim fungerar garanterat under följande
operativsystem: Windows 98/NT/2000/XP, Mac OS X, Unix (Solaris),
Linux och FreeBSD. I Mac OS X är Javatolken integrerad i
operativsystemet och behöver inte laddas ner (däremot kan den behöva
uppdateras). För övriga operativsystem måste man använda Suns
Java Runtime Environment (JRE) som hämtas gratis från
Suns nerladdningssida.
För att få ett stabilt system som själv kontrollerar att användaren har
den senaste versionen av programmet använder vi Java Web Start. Java
Web Start är dessutom mycket stabilare än t.ex. Java Applets som är
beroende av en webbläsares tillförlitlighet. Grim är tillgängligt för
allmänheten via Grims hemsida
http://skrutten.nada.kth.se/grim/
.
Publikationer och rapporter
-
Johnny Bigert, Ola Knutsson och Jonas Sjöbergh (2003).
Automatic evaluation of robustness and degradation in tagging and parsing.
RANLP 2003, Borovets, Bulgarien.
PDF
-
Jonas Sjöbergh (2003a).
Stomp, a POS-tagger with a different view.
RANLP 2003, Borovets, Bulgarien.
Postscript.
-
Jonas Sjöbergh (2003b).
Bootstrapping a free part-of-speech lexicon using a proprietary lexicon.
ICON 2003, Indien.
PDF.
-
Andreas Aarflot (2003).
Annoteringsverktyg för korpusarbete med Granska som grund.
Examensarbete i datalogi, Nada, SU, TRITA-NA-E03101.
PDF
-
Helena Ihrfors (2003).
Annoteringsverktyg för korpusarbete - användarapplikation.
Examensarbete i datalogi, Nada, SU.
PDF
Spridning av projektets resultat och program
Vi har blivit kontaktade av flera svenska forskare som är intresserade
av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit
tillmötesgående och skickat våra program och data och svarat på frågor
om implementation och användning.
Vi har fått Svenska Akademiens tillstånd att släppa lexikonet till vår
rättstavningsmodul Stava fritt i kodad form. Detta innebär att vi kan
släppa hela Stava fritt, vilket vi kommer att göra under våren 2004.
Vi har utvecklat ett fritt ordklasstaggningslexikon (Sjöbergh 2003b)
och kan därför också släppa Granskas ordklasstaggningsmodul fri.
Vår nya datadrivna ordklasstaggare Stomp (Sjöbergh 2003a) finns redan fritt
tillgänglig.
Upp till CrossCheck.
Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 28 december 2003
Tekniskt stöd: <webmaster@nada.kth.se>