Lägesrapport för CrossCheck för perioden 1 juli-31 december 2003

Nada

Lägesrapport för CrossCheck för perioden 1 juli-31 december 2003

Denna lägesrapport beskriver vad som hänt i projektet under det andra halvåret 2003. Första halvåret 2003 beskrevs i den tidigare lägesrapporten.

Andraspråkskorpus

SSM-korpusen har närmat sig färdigställande. Den har XML-kodats för att följande struktur ska kunna representeras:

Header

Uppgift
Skribent
Kursnivå
Datum

Textkropp

TEI-taggar för Supplied, Given, Damage osv.

Därutöver finns separata filer för skribentinformation och instruktioner till uppgifter. Ordklasstaggar kommer också att få en egen fil.

Vi har fått tillgång till texter från SFI-prov (svenska för invandrare) från Inger Lindberg på Centrum för tvåspråkighetsforskning, Stockholms universitet. Cirka 70000 ord text har fått genomgå samma behandling som SSM-texterna. Vi har också fått tillgång till ett svenskt jämförelsematerial av sfi-prov som kommer att fogas till korpusen.

Camilla Bengtsson som skriver en uppsats för Uppsala universitets språkteknologiprogram håller på med en datorisering av Björn Hammarbergs ASU-korpus (1999). Hon har under ledning av Björn Hammarberg specificerat ett designformat för Internetaccess. SSM-korpusen och SFI-korpusen kommer att ligga nära hennes specifikationer.

Verktyg för sökning och ändring av korpus

I två examensarbeten (Aarflot 2003 och Ihrfors 2003) har en prototyp för ett korpussökningsverktyg utvecklats. Planen är att detta verktyg i framtiden ska kunna kopplas till det sökgränssnitt som Camilla Bengtsson arbetar med. Verktyget använder förindexering av taggbigram och ord för att sökningen ska gå snabbt.

Ordklasstaggning, lexikon och sammansatta ord

Vår nya datadrivna ordklasstaggare Stomp (Sjöbergh 2003a) finns nu fritt tillgänglig i form av C++-kod.

Vi har också studerat metoder för automatisk konstruktion av ett nytt (fritt) lexikon för en ordklasstaggare, med hjälp av en (ej fri) taggad korpus, diverse ej annoterade texter samt ett antal datadrivna ordklasstaggare (Sjöbergh 2003b).

Vi har genomfört en studie av metoder för automatisk uppdelning av sammansatta ord i de ingående ordleden, mer specifikt hur detta bör göras då flera möjliga uppdelningar/tolkningar finns. Exempel på faktorer som använts: antal ordled, deras längd, ord och ordled i den närmsta kontexten, vilka typer av ordled som ofta kombineras med vilka (baserat på de möjliga ordledens ordklass).

Försök med och utvärdering av helautomatisk robusthetsutvärdering (till skillnad från den förra halvautomatiska) har gjorts men är ännu inte utvärderat. Tre olika parsrar ingår i testet.

CrossCheck och Grim

Grim utvecklas inom CrossChecks systerprojekt The use of language tools for writers in the context of learning Swedish as a second language som stöds av Vetenskapsrådet. Grim är ett program som ska stödja inlärning av svenska. Grundtanken är att inläraren ska få möjlighet att dels få direkt återkoppling vad det gäller stavning och grammatik, dels att ge inläraren verktyg för att utforska sitt eget inlärarspråk och målspråket svenska. Grunden i Grim är en enkel ordbehandlingsmiljö. Grim bygger till stor del på de språkverktyg som vidareutvecklas och förfinas inom CrossCheck. Grim är implementerat i Java och bygger på en klient- och server-modell. Grim är en klient som kommunicerar med olika servrar med olika former av språklig kompetens. Med denna modell kan alla förbättringar av de olika språkprogrammen direkt nå användarna. Det är också enkelt att lägga till nya moduler till Grim. Några av de servrar som har utvecklats inom CrossCheck och som används i Grim är serverversioner av Granska, ordböjaren Inflector, och ytparsern GTA. Nya metoder för grammatikgranskning utvecklade inom CrossCheck som den statistiska granskaren ProbGranska finns nu också med i Grim. När den språkgranskare som utvecklas specifikt för skribenter med svenska som andraspråk är färdig (ett av delmålen med CrossCheck) kommer den enkelt att kunna införlivas i ett redan väl beprövat och interaktivt grafiskt gränssnitt.

Grim fungerar på de flesta datorer om de har rätt Javatolk (version 1.4.1 eller senare). Grim fungerar garanterat under följande operativsystem: Windows 98/NT/2000/XP, Mac OS X, Unix (Solaris), Linux och FreeBSD. I Mac OS X är Javatolken integrerad i operativsystemet och behöver inte laddas ner (däremot kan den behöva uppdateras). För övriga operativsystem måste man använda Suns Java Runtime Environment (JRE) som hämtas gratis från Suns nerladdningssida. För att få ett stabilt system som själv kontrollerar att användaren har den senaste versionen av programmet använder vi Java Web Start. Java Web Start är dessutom mycket stabilare än t.ex. Java Applets som är beroende av en webbläsares tillförlitlighet. Grim är tillgängligt för allmänheten via Grims hemsida http://skrutten.nada.kth.se/grim/.

Publikationer och rapporter

Johnny Bigert, Ola Knutsson och Jonas Sjöbergh (2003). Automatic evaluation of robustness and degradation in tagging and parsing. RANLP 2003, Borovets, Bulgarien. PDF
Jonas Sjöbergh (2003a). Stomp, a POS-tagger with a different view. RANLP 2003, Borovets, Bulgarien. Postscript.
Jonas Sjöbergh (2003b). Bootstrapping a free part-of-speech lexicon using a proprietary lexicon. ICON 2003, Indien. PDF.
Andreas Aarflot (2003). Annoteringsverktyg för korpusarbete med Granska som grund. Examensarbete i datalogi, Nada, SU, TRITA-NA-E03101. PDF
Helena Ihrfors (2003). Annoteringsverktyg för korpusarbete - användarapplikation. Examensarbete i datalogi, Nada, SU. PDF

Spridning av projektets resultat och program

Vi har blivit kontaktade av flera svenska forskare som är intresserade av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit tillmötesgående och skickat våra program och data och svarat på frågor om implementation och användning.

Vi har fått Svenska Akademiens tillstånd att släppa lexikonet till vår rättstavningsmodul Stava fritt i kodad form. Detta innebär att vi kan släppa hela Stava fritt, vilket vi kommer att göra under våren 2004.

Vi har utvecklat ett fritt ordklasstaggningslexikon (Sjöbergh 2003b) och kan därför också släppa Granskas ordklasstaggningsmodul fri.

Vår nya datadrivna ordklasstaggare Stomp (Sjöbergh 2003a) finns redan fritt tillgänglig.

Upp till CrossCheck.

Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 28 december 2003
Tekniskt stöd: <webmaster@nada.kth.se>