Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2004
Denna lägesrapport beskriver vad som hänt i projektet under det första
halvåret 2004. Förra halvårsrapporten finns
här.
Andraspråkskorpus
SSM-korpusen och SFI-korpusen är nu kompletta och färdigannoterade med
sådan annotering som inte görs automatiskt på KTH Nada. Det rör all
information om a) själva texten typ av uppgift, datum, kursnivå; b)
skribenten, ålder, kön, språkkunskaper, förstaspråk, ursprungsland mm.
Därutöver har rubriker, referenser, fotnoter, otydligheter och
osäkerheter i tolkning av handskrift mm givits taggar. Filerna är
därutöver anonymiserade. Vi kallar detta version 0.9 av korpusen.
Filerna har XML-kodats för att följande struktur
ska kunna representeras:
- Header
-
- Uppgift
- Skribent
- Kursnivå
- Datum
- Textkropp
-
- TEI-taggar för Head, Supplied, Given, Damage osv.
Därutöver finns separata filer för
skribentinformation och instruktioner
till uppgifter samt scannade handskrivna original, också anonymiserade.
Nytt andraspråksmaterial fogas kontinuerligt till det föreliggande allt
eftersom det flyter in från övriga projektdeltagare.
Kvar att göra är bl a att i efterhand anpassa taggningen till
CES-standard (Corpus Encoding Standard) samt att göra klart scanningen av
original. Björn Hammarberg skall också göra ett urval av texterna från
SSM-korpusen som kommer ett publiceras separat som en balanserad version
av denna korpus och som också kommer att bli allmänt tillgänglig.
Verktyg för sökning och ändring av korpus
Emma Johansson har påbörjat ett examensarbete som vidareutvecklar
korpussökningsverktyget som utvecklades i Aarflots och Ihrfors
examensarbeten 2003. I det nya examensarbetet ska verktyg för
ändringar i korpusen och snabb sökning i den ändrade korpusen utvecklas.
Analys av sammansatta ord och robusthetsanalys
Vi har slutfört en studie av metoder för automatisk uppdelning av
sammansatta ord i de ingående ordleden, mer specifikt hur detta bör
göras då flera möjliga uppdelningar/tolkningar finns
(Sjöbergh och Kann 2004).
En kombination av metoderna finns nu tillgänglig som en server på
Internet.
Försöken med helautomatisk robusthetsutvärdering är nu utvärderade
(Bigert, Sjöbergh, Knutsson, Sahlgren 2004).
Fem parsrar undersöktes i testet.
Statistiska metoder för feldetektion
Vi har konstruerat en ny metod för att med hjälp av maskininlärningsmetoder
och syntetiska fel hitta riktiga fel. Framförallt fungerar metoden
bra för att hitta felaktiga särskrivningar. Metoden kompletterar i
viss mån de manuellt konstruerade reglerna i Granska och resultaten
blir mycket bra om man kombinerar dem (Sjöbergh och Knutsson 2004).
Det finns nu en server på
Internet som går att använda för detektion av felaktiga
särskrivningar.
Metoden har även prövats på ordföljdsfel, som är ett mycket svårare
problem. Resultaten är inte lika bra som för särskrivningar, men
kompletterar Granska på ett bra sätt.
Utvärdering av Granskas språkgranskning och jämförelse med Word
Words språkkontroll och KTH Nadas Granska har utvärderats på 32 452
ord
från SVANTE-korpusen. Totalt undersöktes 787 alarm från de båda
språkkontrollerna. Vilka fel som inte upptäcktes av programmen har
inte undersökts i detalj. Att undersöka antalet missade fel är ett
omfattande arbete och innehåller metodologiskt svåra problem. Hur
skall antalet fel räknas i en mening med många fel? En mening kan
innehålla många fel på det ytliga planet, men samtidigt kan kanske
alla felen åtgärdas genom en eller två ändringar om skribentens syfte
och textens hela innehåll förstås.
Granskningen av grammatik i de båda språkkontrollerna sker ungefär
som förväntat och i enlighet med tidigare undersökningar. Words
grammatikkontroll har en mycket hög precision men lägre täckning än
Granska. Granskas precision är endast något sämre, men antalet
upptäckta fel är ungefär 2,5 gånger så stort. Båda programmen missar
många fel. Men de är också överens om en hel del alarm; dessutom
hittar de också var för sig en del unika fel. En stor skillnad är
kontrollen av stavning; Words stavningskontroll ger många falska
alarm, då många sammansättningar samt egennamn markeras på falska
grunder. Granskas stavningskontroll Stava, missar en del fel som Words
stavningskontroll hittar, men har samtidigt mycket högre precision.
En förklaring är att Stavas sammansättningsanalys genom åren har
blivit mycket väl genomarbetad. En annan förklaring är att Stava inte
kontrollerar stavning hos ord som Granskas ordklasstaggare har
klassat som egennamn. Det är alltså lönsamt att integrera en
stavningskontroll med den generella språkliga analysen. Ytterligare
integrering av de olika verktygen/modulerna utvecklade på KTH Nada
bör ge ännu bättre resultat när texter skrivna av skribenter med svenska som
andraspråk granskas.
Utvärdering av Granska på tjänstemannatexter
Ola Karlsson har i sitt examensarbete bl.a. utvärderat Granska på
texter skrivna av tjänstemän med svenska som andraspråk. Granska
missar många fel som finns i dessa texter. Texterna innehåller många
skrivregelsfel - de flesta missas av Granska (de eftersöks helt
enkelt inte). Granska missar också många kongruensfel, men är desto
bättre på särskrivningsfel och stavfel. Användarna är trots den låga
täckningen ganska nöjda med programmet. Ola Karlsson föreslår utifrån
sin studie att Granska måste förbättras på en rad punkter för att
passa den aktuella användargruppen och textgenren. Några av förslagen
är att:
- rensa bort de regler som är tveksamma enligt modern språkvård
- integrera bättre lexikon i programmet
- integrera mer omfattande syntaxanalys
- Granska måste detektera fler frekventa feltyper inom den aktuella
textgenren
- färre och bättre rankade ersättningsförslag.
Ola Karlssons examensarbete (Karlsson 2004) är en magisteruppsats i nordiska språk
vid Stockholms universitet. Examensarbetet har utförts inom projektet
CrossCheck och VR-projeket
The use of language tools for writers in the context of learning Swedish as a second language.
Några av de förbättringsförslag som framkommit i uppsatsen har
redan införlivats i programmet Grim
(http://skrutten.nada.kth.se/grim/
).
I Granska har en del regler som
genererat falska alarm i tjänstemännens texter tagits bort eller
förbättrats. De regler som har varit tveksamma enligt modern svensk
språkvård har tagits bort. Nya metoder för feldetektion har
utvecklats, t.ex. ProbGranska (Bigert 2004) som numera är integrerad i Grim.
Publikationer och rapporter
-
Johnny Bigert (2004).
Probabilistic detection of context-sensitive spelling errors.
Proc. LREC 2004 (4th Int. Conf. Language Resources and
Evaluation), Lissabon, Portugal.
PDF
-
Johnny Bigert, Jonas Sjöbergh, Ola Knutsson, Magnus Sahlgren (2004).
Automatic evaluation of parser robustness: Eliminating manual labor and
annotated resources.
Submitted.
PDF
-
Jonas Sjöbergh, Viggo Kann (2004).
Finding the correct interpretation of Swedish compounds, a statistical approach.
Proc. LREC 2004 (4th Int. Conf. Language Resources and
Evaluation), Lissabon, Portugal.
PDF
-
Jonas Sjöbergh, Ola Knutsson (2004).
Faking errors to avoid making errors: Machine learning for error detection in writing.
Submitted.
PDF
-
Ola Karlsson (2004). Skrivstöd för andraspråksskribenter - användaranpassning av språkkontrollen Granska för andraspråkssvenskar som skriver i arbetet. Master's thesis in Scandinavian Languages, Department of Scandinavian Languages, Stockholm University. PDF
-
Stefan Westlund (2004).
Utformning och implementation av en interaktiv miljö för andraspråksinlärning. Master's thesis in Computer Science, Department of Numerical Analysis and Computer Science, Royal Institute of Technology. PDF
Spridning av projektets resultat och program
Vi har blivit kontaktade av flera svenska forskare som är intresserade
av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit
tillmötesgående och skickat våra program och data och svarat på frågor
om implementation och användning.
Vi kommer att släppa Stava och Granska ordtaggningsmodul fritt
före hösten 2004.
Vi har
sökt och fått pengar från GU för Svantegränssnittsutveckling, uppgående
till cirka två månader heltid, för att göra korpusen tillgänglig via
Språkbanken. Vi börjar då med Inger Lindbergs material.
Dessutom har vi fått löfte att använda inhemska gymnasistuppsatser
(insamlade av Birgitta Garme, Nordiska språk, Uppsala universitet) som
jämförbar del i andraspråkskorpusen.
Upp till CrossCheck.
Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 26 juni 2004
Tekniskt stöd: <webmaster@nada.kth.se>