Vi har fått tillgång till texter från SFI-prov (svenska för invandrare) från Inger Lindberg på Centrum för tvåspråkighetsforskning, Stockholms universitet. Cirka 70000 ord text har fått genomgå samma behandling som SSM-texterna. Vi har också fått tillgång till ett svenskt jämförelsematerial av sfi-prov som kommer att fogas till korpusen.
Camilla Bengtsson som skriver en uppsats för Uppsala universitets språkteknologiprogram håller på med en datorisering av Björn Hammarbergs ASU-korpus (1999). Hon har under ledning av Björn Hammarberg specificerat ett designformat för Internetaccess. SSM-korpusen och SFI-korpusen kommer att ligga nära hennes specifikationer.
Vi har också studerat metoder för automatisk konstruktion av ett nytt (fritt) lexikon för en ordklasstaggare, med hjälp av en (ej fri) taggad korpus, diverse ej annoterade texter samt ett antal datadrivna ordklasstaggare (Sjöbergh 2003b).
Vi har genomfört en studie av metoder för automatisk uppdelning av sammansatta ord i de ingående ordleden, mer specifikt hur detta bör göras då flera möjliga uppdelningar/tolkningar finns. Exempel på faktorer som använts: antal ordled, deras längd, ord och ordled i den närmsta kontexten, vilka typer av ordled som ofta kombineras med vilka (baserat på de möjliga ordledens ordklass).
Försök med och utvärdering av helautomatisk robusthetsutvärdering (till skillnad från den förra halvautomatiska) har gjorts men är ännu inte utvärderat. Tre olika parsrar ingår i testet.
Grim utvecklas inom CrossChecks systerprojekt
The use of language tools for writers in the context of learning Swedish as a second language
som stöds av Vetenskapsrådet. Grim är ett program som ska
stödja inlärning av svenska. Grundtanken är att inläraren ska få
möjlighet att dels få direkt återkoppling vad det gäller stavning och
grammatik, dels att ge inläraren verktyg för att utforska sitt eget
inlärarspråk och målspråket svenska. Grunden i Grim är en enkel
ordbehandlingsmiljö. Grim bygger till stor del på de
språkverktyg som vidareutvecklas och förfinas inom CrossCheck. Grim
är implementerat i Java och bygger på en klient- och server-modell.
Grim är en klient som kommunicerar med olika servrar med olika former
av språklig kompetens. Med denna modell kan alla förbättringar av de
olika språkprogrammen direkt nå användarna. Det är också enkelt att
lägga till nya moduler till Grim. Några av de servrar som har
utvecklats inom CrossCheck och som används i Grim är serverversioner
av Granska, ordböjaren Inflector, och ytparsern GTA. Nya metoder för
grammatikgranskning utvecklade inom CrossCheck som den statistiska
granskaren ProbGranska finns nu också med i Grim. När den
språkgranskare som utvecklas specifikt för skribenter med svenska som
andraspråk är färdig (ett av delmålen med CrossCheck) kommer den
enkelt att kunna införlivas i ett redan väl beprövat och interaktivt
grafiskt gränssnitt.
Grim fungerar på de flesta datorer om de har rätt Javatolk (version
1.4.1 eller senare). Grim fungerar garanterat under följande
operativsystem: Windows 98/NT/2000/XP, Mac OS X, Unix (Solaris),
Linux och FreeBSD. I Mac OS X är Javatolken integrerad i
operativsystemet och behöver inte laddas ner (däremot kan den behöva
uppdateras). För övriga operativsystem måste man använda Suns
Java Runtime Environment (JRE) som hämtas gratis från
Suns nerladdningssida.
För att få ett stabilt system som själv kontrollerar att användaren har
den senaste versionen av programmet använder vi Java Web Start. Java
Web Start är dessutom mycket stabilare än t.ex. Java Applets som är
beroende av en webbläsares tillförlitlighet. Grim är tillgängligt för
allmänheten via Grims hemsida
http://skrutten.nada.kth.se/grim/.
Vi har fått Svenska Akademiens tillstånd att släppa lexikonet till vår rättstavningsmodul Stava fritt i kodad form. Detta innebär att vi kan släppa hela Stava fritt, vilket vi kommer att göra under våren 2004.
Vi har utvecklat ett fritt ordklasstaggningslexikon (Sjöbergh 2003b) och kan därför också släppa Granskas ordklasstaggningsmodul fri.
Vår nya datadrivna ordklasstaggare Stomp (Sjöbergh 2003a) finns redan fritt tillgänglig.
Upp till CrossCheck.