Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2004

Nada

Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2004

Denna lägesrapport beskriver vad som hänt i projektet under det första halvåret 2004. Förra halvårsrapporten finns här.

Andraspråkskorpus

SSM-korpusen och SFI-korpusen är nu kompletta och färdigannoterade med sådan annotering som inte görs automatiskt på KTH Nada. Det rör all information om a) själva texten typ av uppgift, datum, kursnivå; b) skribenten, ålder, kön, språkkunskaper, förstaspråk, ursprungsland mm. Därutöver har rubriker, referenser, fotnoter, otydligheter och osäkerheter i tolkning av handskrift mm givits taggar. Filerna är därutöver anonymiserade. Vi kallar detta version 0.9 av korpusen. Filerna har XML-kodats för att följande struktur ska kunna representeras:

Header

Uppgift
Skribent
Kursnivå
Datum

Textkropp

TEI-taggar för Head, Supplied, Given, Damage osv.

Därutöver finns separata filer för skribentinformation och instruktioner till uppgifter samt scannade handskrivna original, också anonymiserade.

Nytt andraspråksmaterial fogas kontinuerligt till det föreliggande allt eftersom det flyter in från övriga projektdeltagare.

Kvar att göra är bl a att i efterhand anpassa taggningen till CES-standard (Corpus Encoding Standard) samt att göra klart scanningen av original. Björn Hammarberg skall också göra ett urval av texterna från SSM-korpusen som kommer ett publiceras separat som en balanserad version av denna korpus och som också kommer att bli allmänt tillgänglig.

Verktyg för sökning och ändring av korpus

Emma Johansson har påbörjat ett examensarbete som vidareutvecklar korpussökningsverktyget som utvecklades i Aarflots och Ihrfors examensarbeten 2003. I det nya examensarbetet ska verktyg för ändringar i korpusen och snabb sökning i den ändrade korpusen utvecklas.

Analys av sammansatta ord och robusthetsanalys

Vi har slutfört en studie av metoder för automatisk uppdelning av sammansatta ord i de ingående ordleden, mer specifikt hur detta bör göras då flera möjliga uppdelningar/tolkningar finns (Sjöbergh och Kann 2004). En kombination av metoderna finns nu tillgänglig som en server på Internet.

Försöken med helautomatisk robusthetsutvärdering är nu utvärderade (Bigert, Sjöbergh, Knutsson, Sahlgren 2004). Fem parsrar undersöktes i testet.

Statistiska metoder för feldetektion

Vi har konstruerat en ny metod för att med hjälp av maskininlärningsmetoder och syntetiska fel hitta riktiga fel. Framförallt fungerar metoden bra för att hitta felaktiga särskrivningar. Metoden kompletterar i viss mån de manuellt konstruerade reglerna i Granska och resultaten blir mycket bra om man kombinerar dem (Sjöbergh och Knutsson 2004). Det finns nu en server på Internet som går att använda för detektion av felaktiga särskrivningar.

Metoden har även prövats på ordföljdsfel, som är ett mycket svårare problem. Resultaten är inte lika bra som för särskrivningar, men kompletterar Granska på ett bra sätt.

Utvärdering av Granskas språkgranskning och jämförelse med Word

Words språkkontroll och KTH Nadas Granska har utvärderats på 32 452 ord från SVANTE-korpusen. Totalt undersöktes 787 alarm från de båda språkkontrollerna. Vilka fel som inte upptäcktes av programmen har inte undersökts i detalj. Att undersöka antalet missade fel är ett omfattande arbete och innehåller metodologiskt svåra problem. Hur skall antalet fel räknas i en mening med många fel? En mening kan innehålla många fel på det ytliga planet, men samtidigt kan kanske alla felen åtgärdas genom en eller två ändringar om skribentens syfte och textens hela innehåll förstås.

Granskningen av grammatik i de båda språkkontrollerna sker ungefär som förväntat och i enlighet med tidigare undersökningar. Words grammatikkontroll har en mycket hög precision men lägre täckning än Granska. Granskas precision är endast något sämre, men antalet upptäckta fel är ungefär 2,5 gånger så stort. Båda programmen missar många fel. Men de är också överens om en hel del alarm; dessutom hittar de också var för sig en del unika fel. En stor skillnad är kontrollen av stavning; Words stavningskontroll ger många falska alarm, då många sammansättningar samt egennamn markeras på falska grunder. Granskas stavningskontroll Stava, missar en del fel som Words stavningskontroll hittar, men har samtidigt mycket högre precision. En förklaring är att Stavas sammansättningsanalys genom åren har blivit mycket väl genomarbetad. En annan förklaring är att Stava inte kontrollerar stavning hos ord som Granskas ordklasstaggare har klassat som egennamn. Det är alltså lönsamt att integrera en stavningskontroll med den generella språkliga analysen. Ytterligare integrering av de olika verktygen/modulerna utvecklade på KTH Nada bör ge ännu bättre resultat när texter skrivna av skribenter med svenska som andraspråk granskas.

Utvärdering av Granska på tjänstemannatexter

Ola Karlsson har i sitt examensarbete bl.a. utvärderat Granska på texter skrivna av tjänstemän med svenska som andraspråk. Granska missar många fel som finns i dessa texter. Texterna innehåller många skrivregelsfel - de flesta missas av Granska (de eftersöks helt enkelt inte). Granska missar också många kongruensfel, men är desto bättre på särskrivningsfel och stavfel. Användarna är trots den låga täckningen ganska nöjda med programmet. Ola Karlsson föreslår utifrån sin studie att Granska måste förbättras på en rad punkter för att passa den aktuella användargruppen och textgenren. Några av förslagen är att:

rensa bort de regler som är tveksamma enligt modern språkvård
integrera bättre lexikon i programmet
integrera mer omfattande syntaxanalys
Granska måste detektera fler frekventa feltyper inom den aktuella textgenren
färre och bättre rankade ersättningsförslag.

Ola Karlssons examensarbete (Karlsson 2004) är en magisteruppsats i nordiska språk vid Stockholms universitet. Examensarbetet har utförts inom projektet CrossCheck och VR-projeket The use of language tools for writers in the context of learning Swedish as a second language. Några av de förbättringsförslag som framkommit i uppsatsen har redan införlivats i programmet Grim (http://skrutten.nada.kth.se/grim/). I Granska har en del regler som genererat falska alarm i tjänstemännens texter tagits bort eller förbättrats. De regler som har varit tveksamma enligt modern svensk språkvård har tagits bort. Nya metoder för feldetektion har utvecklats, t.ex. ProbGranska (Bigert 2004) som numera är integrerad i Grim.

Publikationer och rapporter

Johnny Bigert (2004). Probabilistic detection of context-sensitive spelling errors. Proc. LREC 2004 (4th Int. Conf. Language Resources and Evaluation), Lissabon, Portugal. PDF
Johnny Bigert, Jonas Sjöbergh, Ola Knutsson, Magnus Sahlgren (2004). Automatic evaluation of parser robustness: Eliminating manual labor and annotated resources. Submitted. PDF
Jonas Sjöbergh, Viggo Kann (2004). Finding the correct interpretation of Swedish compounds, a statistical approach. Proc. LREC 2004 (4th Int. Conf. Language Resources and Evaluation), Lissabon, Portugal. PDF
Jonas Sjöbergh, Ola Knutsson (2004). Faking errors to avoid making errors: Machine learning for error detection in writing. Submitted. PDF
Ola Karlsson (2004). Skrivstöd för andraspråksskribenter - användaranpassning av språkkontrollen Granska för andraspråkssvenskar som skriver i arbetet. Master's thesis in Scandinavian Languages, Department of Scandinavian Languages, Stockholm University. PDF
Stefan Westlund (2004). Utformning och implementation av en interaktiv miljö för andraspråksinlärning. Master's thesis in Computer Science, Department of Numerical Analysis and Computer Science, Royal Institute of Technology. PDF

Spridning av projektets resultat och program

Vi har blivit kontaktade av flera svenska forskare som är intresserade av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit tillmötesgående och skickat våra program och data och svarat på frågor om implementation och användning.

Vi kommer att släppa Stava och Granska ordtaggningsmodul fritt före hösten 2004.

Vi har sökt och fått pengar från GU för Svantegränssnittsutveckling, uppgående till cirka två månader heltid, för att göra korpusen tillgänglig via Språkbanken. Vi börjar då med Inger Lindbergs material.

Dessutom har vi fått löfte att använda inhemska gymnasistuppsatser (insamlade av Birgitta Garme, Nordiska språk, Uppsala universitet) som jämförbar del i andraspråkskorpusen.

Upp till CrossCheck.

Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 26 juni 2004
Tekniskt stöd: <webmaster@nada.kth.se>