Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2003

Nada

Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2003

Andraspråkskorpus

SSM-korpusen har närmat sig färdigställande genom att varje text har identifierats med avseende på skrivuppgift, uppgiftstyp (inträdesprov, klassrumsuppsats, slutprov) och kursnivå (1-4). Textfilerna i SSM-korpusen har följande struktur:

Header

Uppgift (id, typ, instruktion (Länk), scannad text/bild)
Skribent (id och Länk)
Kursnivå
Datum

Textkropp

Kommer att få menings- och styckemarkörer
Har TEI-taggar för Supplied, Given, Damage osv.

Därutöver finns separata filer för skribentinformation och instruktioner till uppgifter. Ordklasstaggar kommer också att få en egen fil.

Vi har fått tillgång till texter från SFI-prov (svenska för invandrare) från Inger Lindberg på Centrum för tvåspråkighetsforskning, Stockholms universitet. Cirka 70000 ord text håller på att genomgå samma behandling som SSM-texterna.

Camilla Bengtsson som skriver en uppsats för Uppsala universitets språkteknologiprogram håller på med en datorisering av Björn Hammarbergs ASU-korpus (1999). Hon har under ledning av Björn Hammarberg specificerat ett designformat för Internetaccess. SSM-korpusen och SFI-korpusen kommer att ligga nära hennes specifikationer.

Ordklasstaggning, lexikon och sammansatta ord

Vi har utvecklat metoder för att öka tillförlitligheten vid ordklasstaggning genom att kombinera flera datadrivna ordklasstaggare på olika sätt, utvärderat på skriven svenska (Sjöbergh, 2003a). I samband med detta har vi utvecklat en ny datadriven metod för ordklasstaggning som inte är speciellt bra ensam, men som kompletterar "vanliga" metoder väl när man kombinerar dem enligt ovan (Sjöbergh, 2003b). Vi har också studerat metoder för automatisk konstruktion av ett nytt (fritt) lexikon för en ordklasstaggare, med hjälp av en (ej fri) taggad korpus, diverse ej annoterade texter samt ett antal datadrivna ordklasstaggare (Sjöbergh 2003c).

Vi har inlett en studie av metoder för automatisk uppdelning av sammansatta ord i de ingående ordleden, mer specifikt hur detta bör göras då flera möjliga uppdelningar/tolkningar finns. Exempel på faktorer som använts: antal ordled, deras längd, ord och ordled i den närmsta kontexten, vilka typer av ordled som ofta kombineras med vilka (baserat på de möjliga ordledens ordklass).

Utveckling av en ytparser för svenska

För att komma åt mer komplicerade fel som t.ex. ordföljdsfel måste det finnas en bättre grundläggande analys av texten som andraspråksskribenterna skriver. I Granska opererar granskningsreglerna på disambiguerad ordklasstaggad text och en flertydig partiell frasstrukturanalys. Genom att lyfta analysen till en entydiggjord frasstrukturanalys bör man kunna skriva granskningsregler som ger färre falska alarm samtidigt som mindre komplexa regler kan konstrueras som kan upptäcka komplexare typer av fel. För detta ändamål har en ytparser tagits fram, kallad Granskas TextAnalysator (GTA). GTA består av 260 regler som analyserar grundläggande fraser som:

NP: Han såg den lilla mannen på bänken.
VC: Han har spelat kort hela natten.
PP: Han såg spår i sanden.
AP: Han ogillade små vita lögner.
ADVP: Han vill inte gå på bio.
INFP: Han tycker om att spela.

Dessutom analyseras satsgränser med hjälp av 20 regler som baseras på Ejerheds "clause segmentation algorithm". 220 regler användas för att identifiera fraser och satsgränser, medan 40 regler användas för att disambiguera. I de fall där reglerna för disambiguering inte räcker till används den s.k. Tetrisalgoritmen som i grova drag sorterar frasenheter efter längd, och utifrån den längsta bygger upp en platt trädstruktur. Korta frasenheter får ingå i längre frasenheter, men inga frasgränser får överlappas (Knutsson, Bigert, Kann 2003).

Automatisk utvärdering av robusthet och degradering i taggning och parsning

Andraspråksskribenters texter innehåller fel av olika typ och med varierande frekvens. En grundläggande fråga är hur ett fel skall upptäckas med en omgivning som också innehåller fel. Eller om fallet är enklare, dvs. om ett fel är isolerat i en mening, hur mycket påverkas analysen av hela meningen när den innehåller ett fel. En viktig målsättning i CrossCheck-projektet är att de verktyg som utvecklas skall klara av de beskrivna fallen för att möjliggöra en användbar felanalys. Därför har två viktiga verktyg utvecklats som gör det möjligt att utvärdera olika taggare och parsningsverktyg på automatisk väg. Ett av verktygen kallas Missplel och användas för att skapa felaktiga konstruktioner i texter. Det andra verktyget heter AutoEval och används för att t.ex. jämföra en manuellt annoterat korpus med en som har annoterats automatiskt. Med dessa två verktyg kan taggares och parsningsverktygs robusthet utvärderas (Bigert, Ericson, Solis 2003).

Den specifika del av analysverktygens robusthet som kan utvärderas är hur väl de kan analysera textuella data som innehåller fel och hur mycket sämre analysen blir med en ökande grad av felaktiga konstruktioner i en text. Den automatiska utvärderingen kräver manuellt annoterad data, vilket för taggningens del finns i form av SUC-korpusen. Men för parsningsverktygens utvärdering behövdes en delmängd av SUC (15 000 ord) annoteras med platt frasstruktur. Resultaten från utvärderingen visar att såväl taggare (Tnt och Brill) som parser (GTA) är robusta och den procentuella försämringen faller linjärt med andelen fel som introduceras i texterna. De grundläggande verktyg som vi har kan därför anses vara lämpliga för att analysera andraspråksskribenters texter (Bigert, Knutsson, Sjöbergh 2003).

Granska

Granskas webbversion som numera bygger på en granskningsserver (se http://skrutten.nada.kth.se/scrut/svesve/) har gjorts pålitligare och fått ökad funktionalitet, till exempel kan nu webbsidor granskas. Arbete med förbättring och uppsnabbning av Granskas regelspråk och regelmatchning pågår. I framtiden ska det vara möjligt att i reglerna arbeta med det disambiguerade ytparsningsresultatet.

TvärGranska - interaktiv granskning

Granskas webbdemonstrator saknar möjlighet till användarinteraktion. Därför har en ny interaktiv version tagit form under namnet TvärGranska. Syftet är att språkgranskningen med TvärGranska ska bli mer interaktiv och att TvärGranska ska vara lättillgängligt för användaren genom plattforms- och applikationsoberoende. I början av utvecklingen delades en enkät ut, enkäten syftade till att ta reda på mer om de tilltänkta användarnas datorvana, hur de arbetar med ordbehandlare och språkgranskning i ordbehandlare och deras inställning till en språkgranskare på webben. Med utgångspunkt i svaren från enkäten och tidigare studierna gjorda på Nada började TvärGranska utvecklas. Applikationen är skriven i det serverexekverade språket JSP med användandet av JavaScript för att åstadkomma mer interaktion. Gränssnittet har utvärderats i en användarstudie med studenter som läser svenska som andraspråk på Folkuniversitet. Målet med användarstudien var att undersöka hur användarna interagerar med gränssnittet eftersom det ger viktig information till den fortsatta utvecklingen av gränssnittsdesignen (Stenervall 2003).

TvärGranska på webben.

Fältstudier

I samarbete med VR-projektet "The use of language tools for writers in the context of learning Swedish as a second language" har en fältstudie genomförts med Granska och en grupp av studenter på kursen "Svenska som främmande språk, nivå 3" på Institutionen för nordiska språk vid Stockholms Universitet. En viktig del av fältstudien bestod av att förklara för studenterna hur Granska fungerar, dess begränsningar, och hur Granska kan användas i en avancerad kurs i svenska som främmande språk. Studien har fokuserat på studenternas fria skrivande, och de har mestadels använt Granska som ett stöd när de har reviderat sina texter i hemmiljö. Granska upptäcker ungefär 30% av felen i studenterans texter och ger få falska alarm. För att studenterna skall följa och acceptera Granskas förslag krävs det relevanta diagnoser och lämpliga ersättningsförslag (Knutsson, Cerrato Pargman, Severinson Eklundh 2003).

En andra fältstudie har utförts på samma typ av kurs som den första men med 10 användare istället för 5, och under en längre tid. I fältstudie två har vi samlat betydligt mer data, och de flitigaste studenterna har skrivit 13 texter med hjälp av Granska. Fältstudie två har precis avslutats och insamlade data kommer att analyseras under sommaren. När denna analys är klar kommer vi att veta mer om hur Granska skall byggas om för att passa andraspråksskribenter. De data som vi har samlat kommer att kunna användas för att anpassa såväl bakomliggande språkteknik som återkoppling och interaktion med användaren i ett grafiskt gränssnitt.

EU-ansökan

Lars Borin har tagit initiativ till och formulerat en ansökan om spetskompetensnätverk (Network of Excellence) inom området "datorstödd språkinlärning och språkteknologi" till EU:s sjätte ramprogram, där det arbete som gjorts och görs i CrossCheck-projektet är en viktig komponent.

Publikationer och rapporter

Johnny Bigert, Ola Knutsson och Jonas Sjöbergh (2003). Automatic evaluation of robustness and degradation in tagging and parsing. Submitted.
Johnny Bigert, Linus Ericson och Antoine Solis (2003). AutoEval and Missplel: Two generic tools for automatic evaluation. Proc. NoDaLiDa 2003, Reykjavik, Island. Abstract
Lars Borin och Klas Prütz (2003): New wine in old skins? A corpus investigation of L1 syntactic transfer in learner language. Teaching and language corpora (TaLC) 2002. Rodopi (Amsterdam). PDF.
Jens Eeg-Olofsson och Ola Knutsson (2003): Hantering av prepositionsproblem i en svensk grammatikkontroll för andraspråksinlärare. Proc. NoDaLiDa 2003, Reykjavik, Island. Abstract i PDF.
Ola Knutsson, Johnny Bigert och Viggo Kann (2003). A robust shallow parser for Swedish. Proc. Nodalida 2003, Reykjavik, Island. Presentation i PowerPoint, Abstract i PDF.
Ola Knutsson, Tessy Cerratto Pargman och Kerstin Severinson Eklundh (2003): Transforming grammar checking technology into a learning environment for second language writing. Proc. HLT/NAACL 2003 workshop: Building Educational Applications Using NLP, Edmonton, Canada.
Jonas Sjöbergh (2003a): Combining POS-taggers for improved accuracy on Swedish text, Proc. NoDaLiDa 2003, Reykjavik, Island. presentationen i Postscript, artikeln i Postscript.
Jonas Sjöbergh (2003b): Stomp, a POS-tagger with a different view, submitted to RANLP 2003. Postscript.
Jonas Sjöbergh (2003c): Bootstrapping a free part-of-speech lexicon from a proprietary lexicon, submitted 2003. Postscript.
Ylva Stenervall (2003). TvärGranska - interaktiv webbmiljö för språkgranskning. Master's thesis in Media Technology, KTH Nada.

Spridning av projektets resultat och program

Vi har blivit kontaktade av flera svenska forskare som är intresserade av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit tillmötesgående och skickat våra program och data och svarat på frågor om implementation och användning.

Vi vill släppa vårt rättstavningsprogram fritt, men då krävs det att Svenska Akademien ger tillstånd till att lexikonet som bygger på förra upplagan av SAOL också kan släppas fritt. Vi skickar ett brev till Svenska Akademien och ber om detta.

Vi vill släppa vår ordklasstaggare fri, men då krävs det ett fritt lexikon, vilket vi arbetar med (Sjöbergh 2003c).

AutoEval och Missplel kommer mycket snart att göras allmänt tillgängliga från vår egen webbplats.

Upp till CrossCheck.

Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 30 juni 2003
Tekniskt stöd: <webmaster@nada.kth.se>