Lägesrapport för CrossCheck för perioden 1 januari-30 juni 2003
Andraspråkskorpus
SSM-korpusen har närmat sig färdigställande genom att varje text har
identifierats med avseende på skrivuppgift, uppgiftstyp (inträdesprov,
klassrumsuppsats, slutprov) och kursnivå (1-4). Textfilerna i
SSM-korpusen har följande struktur:
- Header
-
- Uppgift (id, typ, instruktion (Länk), scannad text/bild)
- Skribent (id och Länk)
- Kursnivå
- Datum
- Textkropp
-
- Kommer att få menings- och styckemarkörer
- Har TEI-taggar för Supplied, Given, Damage osv.
Därutöver finns separata filer för skribentinformation och instruktioner
till uppgifter. Ordklasstaggar kommer också att få en egen fil.
Vi har fått tillgång till texter från SFI-prov (svenska för invandrare)
från Inger Lindberg på Centrum för tvåspråkighetsforskning, Stockholms
universitet. Cirka 70000 ord text håller på att genomgå samma
behandling som SSM-texterna.
Camilla Bengtsson som skriver en uppsats för Uppsala universitets
språkteknologiprogram håller på med en datorisering av Björn Hammarbergs
ASU-korpus (1999). Hon har under ledning av Björn Hammarberg
specificerat ett designformat för Internetaccess. SSM-korpusen och
SFI-korpusen kommer att ligga nära hennes specifikationer.
Ordklasstaggning, lexikon och sammansatta ord
Vi har utvecklat metoder för att öka tillförlitligheten vid
ordklasstaggning genom att kombinera flera datadrivna ordklasstaggare
på olika sätt, utvärderat på skriven svenska (Sjöbergh, 2003a).
I samband med detta har vi utvecklat en ny datadriven metod för
ordklasstaggning som inte är speciellt bra ensam, men som kompletterar
"vanliga" metoder väl när man kombinerar dem enligt ovan (Sjöbergh, 2003b).
Vi har också studerat metoder för automatisk konstruktion av ett nytt
(fritt) lexikon för en ordklasstaggare, med hjälp av en (ej fri) taggad korpus,
diverse ej annoterade texter samt ett antal datadrivna
ordklasstaggare (Sjöbergh 2003c).
Vi har inlett en studie av metoder för automatisk uppdelning av
sammansatta ord i de ingående ordleden, mer specifikt hur detta bör
göras då flera möjliga uppdelningar/tolkningar finns. Exempel på
faktorer som använts: antal ordled, deras längd, ord och ordled i den
närmsta kontexten, vilka typer av ordled som ofta kombineras med vilka
(baserat på de möjliga ordledens ordklass).
Utveckling av en ytparser för svenska
För att komma åt mer komplicerade fel som t.ex. ordföljdsfel måste det
finnas en bättre grundläggande analys av texten som
andraspråksskribenterna skriver. I Granska opererar
granskningsreglerna på disambiguerad ordklasstaggad text och en
flertydig partiell frasstrukturanalys. Genom att lyfta analysen till
en entydiggjord frasstrukturanalys bör man kunna skriva
granskningsregler som ger färre falska alarm samtidigt som mindre
komplexa regler kan konstrueras som kan upptäcka komplexare typer av
fel. För detta ändamål har en ytparser tagits fram, kallad Granskas
TextAnalysator (GTA). GTA består av 260 regler som analyserar
grundläggande fraser som:
NP: Han såg den lilla mannen på bänken.
VC: Han har spelat kort hela natten.
PP: Han såg spår i sanden.
AP: Han ogillade små vita lögner.
ADVP: Han vill inte gå på bio.
INFP: Han tycker om att spela.
Dessutom analyseras satsgränser med hjälp av 20 regler som baseras på
Ejerheds "clause segmentation algorithm". 220 regler användas för att
identifiera fraser och satsgränser, medan 40 regler användas för att
disambiguera. I de fall där reglerna för disambiguering inte räcker
till används den s.k. Tetrisalgoritmen som i grova drag sorterar
frasenheter efter längd, och utifrån den längsta bygger upp en platt
trädstruktur. Korta frasenheter får ingå i längre frasenheter, men
inga frasgränser får överlappas (Knutsson, Bigert, Kann 2003).
Automatisk utvärdering av robusthet och degradering i taggning och parsning
Andraspråksskribenters texter innehåller fel av olika typ och med
varierande frekvens. En grundläggande fråga är hur ett fel skall
upptäckas med en omgivning som också innehåller fel. Eller om fallet
är enklare, dvs. om ett fel är isolerat i en mening, hur mycket
påverkas analysen av hela meningen när den innehåller ett fel. En
viktig målsättning i CrossCheck-projektet är att de verktyg som
utvecklas skall klara av de beskrivna fallen för att möjliggöra en
användbar felanalys. Därför har två viktiga verktyg utvecklats som gör
det möjligt att utvärdera olika taggare och parsningsverktyg på
automatisk väg. Ett av verktygen kallas Missplel och användas för att
skapa felaktiga konstruktioner i texter. Det andra verktyget heter
AutoEval och används för att t.ex. jämföra en manuellt annoterat
korpus med en som har annoterats automatiskt. Med dessa två verktyg
kan taggares och parsningsverktygs robusthet utvärderas
(Bigert, Ericson, Solis 2003).
Den specifika
del av analysverktygens robusthet som kan utvärderas är hur väl de kan
analysera textuella data som innehåller fel och hur mycket sämre
analysen blir med en ökande grad av felaktiga konstruktioner i en
text. Den automatiska utvärderingen kräver manuellt annoterad data,
vilket för taggningens del finns i form av SUC-korpusen. Men för
parsningsverktygens utvärdering behövdes en delmängd av SUC (15 000
ord) annoteras med platt frasstruktur. Resultaten från utvärderingen
visar att såväl taggare (Tnt och Brill) som parser (GTA) är robusta
och den procentuella försämringen faller linjärt med andelen fel som
introduceras i texterna. De grundläggande verktyg som vi har kan
därför anses vara lämpliga för att analysera andraspråksskribenters
texter (Bigert, Knutsson, Sjöbergh 2003).
Granska
Granskas webbversion som numera bygger på en granskningsserver
(se http://skrutten.nada.kth.se/scrut/svesve/
)
har gjorts pålitligare och fått ökad funktionalitet, till exempel
kan nu webbsidor granskas. Arbete med förbättring och uppsnabbning av
Granskas regelspråk och regelmatchning pågår. I framtiden ska det vara
möjligt att i reglerna arbeta med det disambiguerade ytparsningsresultatet.
TvärGranska - interaktiv granskning
Granskas webbdemonstrator saknar möjlighet till användarinteraktion.
Därför har en ny interaktiv
version tagit form under namnet TvärGranska.
Syftet är att språkgranskningen med TvärGranska ska bli mer interaktiv
och att TvärGranska ska vara lättillgängligt för användaren genom
plattforms- och applikationsoberoende. I början av utvecklingen
delades en enkät ut, enkäten syftade till att ta reda på mer om de
tilltänkta användarnas datorvana, hur de arbetar med ordbehandlare och
språkgranskning i ordbehandlare och deras inställning till en
språkgranskare på webben. Med utgångspunkt i svaren från enkäten och
tidigare studierna gjorda på Nada började TvärGranska
utvecklas. Applikationen är skriven i det serverexekverade språket JSP
med användandet av JavaScript för att åstadkomma mer
interaktion. Gränssnittet har utvärderats i en användarstudie med
studenter som läser svenska som andraspråk på Folkuniversitet. Målet
med användarstudien var att undersöka hur användarna interagerar med
gränssnittet eftersom det ger viktig information till den fortsatta
utvecklingen av gränssnittsdesignen (Stenervall 2003).
TvärGranska på webben.
Fältstudier
I samarbete med VR-projektet "The use of language tools for writers in
the context of learning Swedish as a second language" har en
fältstudie genomförts med Granska och en grupp av studenter på kursen
"Svenska som främmande språk, nivå 3" på Institutionen för nordiska
språk vid Stockholms Universitet. En viktig del av fältstudien bestod
av att förklara för studenterna hur Granska fungerar, dess
begränsningar, och hur Granska kan användas i en avancerad kurs i
svenska som främmande språk. Studien har fokuserat på studenternas
fria skrivande, och de har mestadels använt Granska som ett stöd när
de har reviderat sina texter i hemmiljö. Granska upptäcker ungefär
30% av felen i studenterans texter och ger få falska alarm. För att
studenterna skall följa och acceptera Granskas förslag krävs det
relevanta diagnoser och lämpliga ersättningsförslag
(Knutsson, Cerrato Pargman, Severinson Eklundh 2003).
En andra fältstudie har utförts på samma typ av kurs som den första
men med 10 användare istället för 5, och under en längre tid. I
fältstudie två har vi samlat betydligt mer data, och de flitigaste
studenterna har skrivit 13 texter med hjälp av Granska. Fältstudie två
har precis avslutats och insamlade data kommer att analyseras under
sommaren. När denna analys är klar kommer vi att veta mer om hur
Granska skall byggas om för att passa andraspråksskribenter. De data
som vi har samlat kommer att kunna användas för att anpassa såväl
bakomliggande språkteknik som återkoppling och interaktion med
användaren i ett grafiskt gränssnitt.
EU-ansökan
Lars Borin har tagit initiativ till och
formulerat en ansökan om spetskompetensnätverk (Network of
Excellence) inom området "datorstödd språkinlärning och språkteknologi"
till EU:s sjätte ramprogram, där det arbete som gjorts och görs i
CrossCheck-projektet är en viktig komponent.
Publikationer och rapporter
-
Johnny Bigert, Ola Knutsson och Jonas Sjöbergh (2003).
Automatic evaluation of robustness and degradation in tagging and parsing.
Submitted.
-
Johnny Bigert, Linus Ericson och Antoine Solis (2003).
AutoEval and Missplel: Two generic tools for automatic evaluation.
Proc. NoDaLiDa 2003, Reykjavik, Island.
Abstract
-
Lars Borin och Klas Prütz (2003):
New wine in old skins? A corpus investigation of L1 syntactic transfer
in learner language. Teaching and language corpora (TaLC) 2002.
Rodopi (Amsterdam).
PDF.
-
Jens Eeg-Olofsson och Ola Knutsson (2003):
Hantering av prepositionsproblem i en svensk grammatikkontroll för
andraspråksinlärare.
Proc. NoDaLiDa 2003, Reykjavik, Island.
Abstract i PDF.
-
Ola Knutsson, Johnny Bigert och Viggo Kann (2003).
A robust shallow parser for Swedish.
Proc. Nodalida 2003, Reykjavik, Island.
Presentation i PowerPoint,
Abstract i PDF.
-
Ola Knutsson, Tessy Cerratto Pargman och Kerstin Severinson Eklundh (2003):
Transforming grammar checking technology into a learning environment for
second language writing.
Proc. HLT/NAACL 2003 workshop: Building Educational Applications Using NLP,
Edmonton, Canada.
-
Jonas Sjöbergh (2003a):
Combining POS-taggers for improved accuracy on Swedish text,
Proc. NoDaLiDa 2003, Reykjavik, Island.
presentationen i Postscript,
artikeln i Postscript.
-
Jonas Sjöbergh (2003b):
Stomp, a POS-tagger with a different view,
submitted to RANLP 2003.
Postscript.
-
Jonas Sjöbergh (2003c):
Bootstrapping a free part-of-speech lexicon from a proprietary lexicon,
submitted 2003.
Postscript.
-
Ylva Stenervall (2003).
TvärGranska - interaktiv webbmiljö för språkgranskning.
Master's thesis in Media Technology, KTH Nada.
Spridning av projektets resultat och program
Vi har blivit kontaktade av flera svenska forskare som är intresserade
av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit
tillmötesgående och skickat våra program och data och svarat på frågor
om implementation och användning.
Vi vill släppa vårt rättstavningsprogram fritt, men då krävs det att
Svenska Akademien ger tillstånd till att lexikonet som bygger på förra
upplagan av SAOL också kan släppas fritt. Vi skickar ett brev till
Svenska Akademien och ber om detta.
Vi vill släppa vår ordklasstaggare fri, men då krävs det ett fritt
lexikon, vilket vi arbetar med (Sjöbergh 2003c).
AutoEval och Missplel kommer mycket snart att göras allmänt
tillgängliga från vår egen webbplats.
Upp till CrossCheck.
Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 30 juni 2003
Tekniskt stöd: <webmaster@nada.kth.se>