Slutredovisning inlämnad till VINNOVA Dokid: 91280 

Diarienummer Projekttitel
2002-02405 CrossCheck - svensk grammatikkontroll för andraspråksskribenter
Projektnummer Bidragsmottagare
20020-2 KTH Kungliga Tekniska Högskolan - KTH NUMERISK ANALYS OCH DATALOGI
Projektledare VINNOVAs handläggare
Viggo Kann Barbro Atlestam
Inlämnas senast  
2005-02-28  
   
Sammanfattning av projektet och dess resultat:
I forskningsprojektet CrossCheck har vi arbetat med grammatikgranskning speciellt avpassad
för användare med svenska som andraspråk.

Projektet är ett samarbete mellan KTH Nada och Institutionen för Lingvistik på SU.
Det finansierades 2001-2004 av Vinnova inom Språkteknologiprogrammet samt av KTH och SU.
Vi har också samarbetat med Uppsala universitet och Göteborgs universitet.

Fullständig dokumentation av projektet finns på projektets webbsida
http://www.nada.kth.se/theory/projects/xcheck/

Vi utgick i projektet från Granskasystemet som detekterar stav- och grammatikfel med hjälp av manuellt konstruerade feldetekteringsregler. Det har visat sig svårt att skriva regler som fångar de olika grammatikfel och kontextberoende stavfel (felstavningar som bildar riktiga ord) som förekommer i texter av andraspråksskribenter. Inom projektet har vi därför utvecklat två nya granskningsmetoder med helt olika angreppssätt. Den första metoden, Probgranska, bygger på statistiska skillnader mellan korrekt och felaktig text. Den andra metoden, Snålgranska, bygger på maskininlärning av specifika feltyper och tränas på en ren textkorpus.
Den fungerar särskilt bra på särskrivningar. De tre metoderna har vi utvärderat och jämfört med grammatikgranskningen i MS Word på en korpus bestående av svenska uppsatser av andraspråksinlärare. Vi fann att våra metoderna upptäcker olika fel och därför kompletterar varandra väl. Tillsammans hittar metoderna fyra gånger fler grammatikfel än MS Word. De tre metoderna och utvärderingen beskrivs i artikeln ´Grammar checking for Swedish second language learners´.

Vi har tagit fram en korpus över inlärarsvenska (L2-inlärning).
Korpusen består av fem delar. Tre av delarna består av L2-material och två av delarna består av L1-material, nämligen texter skrivna av svenska gymnasieelever med svenska som modersmål. Dessa delar är tänkta att utgöra en ´jämförelsekorpus´. För en del av korpusen finns
skannade handskrifter.

Korpusen tillhandahålls med två typer av XML-annotering. Den ena sortens annotering beskriver den textuella strukturen med rubriker, brödtext, inledning, avslutning, etc. Svårigheter för annoteraren att tolka den handskrivna förlagan markeras också. Den andra sortens annotering härrör från Granskas morfologiska/syntaktiska analyssystem. Texterna har också försetts med ett texthuvud med referenser till dtd:er, skannade handskrifter och skribentfil, med mera.

Utförlig information om skribenterna samt om skrivuppgifternas identitet, instruktioner och typ finns också, vilket möjliggör en mängd olika typer av sökningar för t ex andraspråksforskare.

Korpusen beskrivs i artikeln ´CrossCheck-korpusen - en elektronisk svensk inlärarkorpus´.

Flera språkteknologiska webbdemonstratorer har utvecklats, till exempel textanalysatorn Grim, se http://skrutten.nada.kth.se. Exempel på språkteknologiska verktyg som utvecklats i projektet är:
Stomp - en annorlunda svensk ordklasstaggare och disambiguerare,
AutoEval - automatisk evaluering av språkteknologiska system,
Missplel - ett verktyg som inför felstavningar i svensk text,
Slåisär - en sammansättningsledsuppdelare,
GTA - en robust svensk ytparser.
Se vidare projektwebbsidan.

Förutom ovanstående har vi i projektet ägnat oss åt forskning inom bland annat följande områden:
* metoder för förbättrad part-of-speech-annotering,
* statistiska metoder för uppdelning av sammansatta ord i deras beståndsdelar,
* en metod för utvärdering av robustheten hos system, till exempel parsrar eller part-of-speech-taggare, mot fel i texten, dels då man har ett facit och dels för uppskattningar då man inte har ett facit,
* användarstudier av grammatikgranskning med användare som har svenska som andraspråk,
* granskningsregler för prepositionsanvändning i svenska språket.
   
Hittills utgivna publikationer (kan även redovisas i separat bilaga):
Projektet har resulterat i tjugo konferensbidrag, tre artiklar och nio examensarbeten.
Två doktorsavhandlingar (Johnny Bigert och Ola Knutsson) som till största delen bygger på arbete inom projektet kommer att läggas fram under 2005.

Rapporter från 2004
Bigert: Probabilistic detection of context-sensitive spelling errors. LREC04.
Bigert, Kann, Knutsson, Sjöbergh: Grammar checking for Swedish second language learners. Chapter in CALL for the Nordic Languages, Copenhagen Studies in Language 30, Copenhagen Business School, Samfundslitteratur.
Bigert, Sjöbergh, Knutsson, Sahlgren: Automatic evaluation of parser robustness: Eliminating manual labor and annotated resources. CICLING05.
Carlberger, Domeij, Kann, Knutsson: The development and performance of a grammar checker for Swedish: A language engineering perspective. Submitted.
Lindberg, Eriksson: CrossCheck-korpusen - en elektronisk svensk inlärarkorpus. ASLA-konferensen 2004.
Sjöbergh, Kann: Finding the correct interpretation of Swedish compounds, a statistical approach. LREC04.
Sjöbergh, Knutsson: Faking errors to avoid making errors: Machine learning for error detection in writing. Submitted.
Karlsson: Skrivstöd för andraspråksskribenter - användaranpassning av språkkontrollen Granska för andraspråkssvenskar som skriver i arbetet. Magisteruppsats, Department of Scandinavian Languages, SU.
Westlund: Utformning och implementation av en interaktiv miljö för andraspråksinlärning. Examensarbete, KTH Nada.

Rapporter från 2003
Bigert, Knutsson, Sjöbergh: Automatic evaluation of robustness and degradation in tagging and parsing. RANLP03.
Bigert, Ericson, Solis: AutoEval and Missplel: Two generic tools for automatic evaluation. NoDaLiDa03.
Borin, Prütz: New wine in old skins? A corpus investigation of L1 syntactic transfer in learner language. TaLC02.
Eeg-Olofsson, Knutsson: Automatic grammar checking for second language learners - the use of prepositions. NoDaLiDa03.
Knutsson, Bigert, Kann: A robust shallow parser for Swedish. Nodalida03.
Knutsson, Cerratto Pargman, Severinson Eklundh: Transforming grammar checking technology into a learning environment for second language writing. HLT/NAACL03.
Sjöbergh: Combining POS-taggers for improved accuracy on Swedish text, NoDaLiDa03.
Sjöbergh: Stomp, a POS-tagger with a different view. RANLP03.
Sjöbergh: Bootstrapping a free part-of-speech lexicon using a proprietary lexicon. ICON03.
Aarflot: Annoteringsverktyg för korpusarbete med Granska som grund. Examensarbete, Nada, SU.
Ihrfors: Annoteringsverktyg för korpusarbete - användarapplikation. Examensarbete, Nada, SU.
Stenervall: TvärGranska - interaktiv webbmiljö för språkgranskning med inriktning mot andraspråksinlärare. Examensarbete, KTH Nada.

Rapporter från 2002
Bigert, Sjöbergh: Förslag till format på korpusannotering.
Domeij, Knutsson, Severinson Eklundh: Different Ways of Evaluating a Swedish Grammar Checker. LREC02.
Knutsson: Datorn som språkgranskare, Språkvård nr 1 2002.
Borin, Cerratto: Översikt över forskningsområdet.
Borin: Where will the standards for intelligent computer-assisted language learning come from? LREC02.
Bigert, Knutsson: Robust error detection: A hybrid approach combining unsupervised error detection and linguistic knowledge. ROMAND02.
Bigert, Knutsson, Kann, Sjöbergh: Annotated Clauses and Flat Phrase Structures for Swedish, Swedish Treebank Symposium.
Borin: What have you done for me lately? The fickle alignment of NLP and CALL. EuroCALL02.
Knutsson, Cerratto Pargman, Severinson Eklundh: Computer support for second language learners´ free text production - Initial studies. ICL2002.
Baltatzis: Språkgranskning med reguljära uttryck. Examensarbete, KTH Nada.
Eeg-Olofsson: Feltaxonomi för automatisk språkgranskning av svensk text, C-uppsats, datorlingvistik, SU.
Johansson: Hjälpmedel för regelkonstruktion - verktyg för att underlätta skapande av regler till Granska. Examensarbete, KTH Nada.
Eeg-Olofsson: Prepositioner och automatisk textgranskning för andraspråksinlärare. Magisteruppsats, datorlingvistik, SU.
   
Annan resultat- och kunskapsförmedling:
Förutom genom rapporterna ovan har vi försökt sprida det vi arbetat med på flera sätt.

Den 15 april 2002 anordnade vi en temadag om grammatikgranskning av andraspråkssvenska.

I september 2002 skrev vi en populärvetenskaplig artikel om projektet i tidningen Teknik och vetenskap.

Vi har utvecklat flera språkteknologiska webbdemonstratorer.
* Grim - textanalysator, använder Javaapplet och Javascript, innehåller också ProbGranska,
* Granska - enkelt och snabbt gränssnitt på Granskas server,
* TvärGranska - en interaktiv version, använder JSP och Javascript,
* Snålgranska - en granskare av annorlunda modell som kräver särskilt lite manuellt arbete vid utvecklingen, använder en granskningsserver.

Dessa är fritt tillgängliga för vem som helst på http://skrutten.nada.kth.se

Vi har också utvecklat och driver ett antal servertjänster på webben som kan anropas av program, till exempel:
* Granskaservern - grammatikgranskning med Granska, Probgranska samt textanalys med Granskas tabbare och GTA.
* Slåisärservern - sammansättningsledsuppdelning.

Vi har blivit kontaktade av flera svenska forskare som är intresserade av vår taggare, grammatikkontroll, ytparser och trädbank. Vi har varit tillmötesgående och skickat våra program och data och svarat på frågor om implementation och användning.

Vi har fått Svenska Akademiens tillstånd att släppa lexikonet till vår rättstavningsmodul Stava fritt i kodad form. Detta innebär att vi kan släppa hela Stava fritt.

Vi har utvecklat ett fritt ordklasstaggningslexikon och kan därför också släppa Granskas ordklasstaggningsmodul fri.

De verktyg som utvecklats inom projektet finns också tillgängliga:
* Stomp - en annorlunda svensk ordklasstaggare och disambiguerare,
* AutoEval - automatisk evaluering av språkteknologiska system,
* Missplel - ett verktyg som inför felstavningar i svensk text,
* Slåisär - en sammansättningsledsuppdelare.

Vår korpus över inlärarsvenska (L2-inlärning) görs tillgänglig för andraspråksforskare och andra intresserade språkforskare via Språkbanken.

Vi har använt Granska i kurser både på KTH och i svenska som andraspråk. Granskningsmetoderna som tagits fram i projektet kommer att tas upp i våra språkteknologikurser och i en doktorandkurs i forskarskolan GSLT i höst.
   
Lägesredovisning i enlighet med Särskilda villkor. (Samfinansiärers och samarbetspartners ekonomiska insatser redovisas nedan i "Samfinansiering enligt villkor".):
Som särskilt villkor hade projektet ´att sprida sin programvara i samarbete med Linköpingsprojektet Utveckling av generiska resurser för språkteknologi´.

Vi har varit i kontakt med Arne Jönsson, projektledaren för
Linköpingsprojektet. Det inte är lämpligt att göra exakt som det står i villkoret, i synnerhet som Linköpingsprojektet bara är till för program skrivna i Java (alla våra system är skrivna i C eller C++).
På ett av Vinnovas möten i språkteknologiprojekten var alla överens om att språkteknologiprojekten istället skulle länkas via http://sprakteknologi.se/

CrossCheck länkas från Sprakteknologi.se, och på vår egen projektwebbsida finns det instruktioner om var de verktyg som utvecklats i projektet kan hämtas med open source-licens. Det gäller följande system:

Stava - svensk stavningskontroll och rättstavning
Tagga - svensk ordklasstaggare och disambiguerare
Stomp - annorlunda svensk ordklasstaggare och disambiguerare
AutoEval - verktyg för automatisk evaluering av språkteknologiska system
Missplel - verktyg som inför felstavningar i svensk text
Slåisär - sammansättningsledsuppdelare
   
Bilagor:
   
Ekonomisk slutredovisning av VINNOVAs bidrag:
VINNOVAs bidrag totalt: 1540000
Total medelsförbrukning: 1540000
Därav förvaltnings och lokalkostnadspåslag: 355430
                         andra administrativa påslag:
   
Överskott skall återbetalas till VINNOVA, postgiro 78 80 62-8 med angivande av diarienr på talongen.
   
Samfinansiering enligt villkor
Samfinansiärer/Samarbetspartners (företag/organisation) Kontantinsats kr: Naturainsats kr:
Summa 0 0


1. VINNOVAs bidrag till projektet/etappen innebar att:
[x] projektet/etappen överhuvudtaget kunde startas och/eller slutföras
[ ] projektet/etappen kunde genomföras med större effektivitet än annars
[ ] projektet/etappen fick just denna inriktning och uppläggning
Kommentera bedömningen:
 
2. Projektet/etappen har på ett tydligt sätt skapat nära samarbetsrelationer mellan aktörer från följande kategorier, inom Sverige och/eller i samarbete med partners i andra länder:
Aktörer Sverige Aktörer i andra länder
[x] Universitet/Högskolor [ ] Universitet/Högskolor
[ ] Företag [ ] Företag
[ ] Politiska beslutsfattare [ ] Politiska beslutsfattare
[ ] Offentlig verksamhet [ ] Offentlig verksamhet
[ ] Institut [ ] Institut
[ ] Ej relevant  
Kommentera bedömningen:
 
3. Projektet/etappen har inneburit att projektdeltagare flyttat anställningsmässigt (på hel- eller deltid) mellan viktiga aktörer i innovationssystemet:
Från Till
[x] Universitet/Högskola [x] Universitet/Högskola
[ ] Företag [ ] Företag
[ ] Politik [ ] Politik
[ ] Offentlig verksamhet [ ] Offentlig verksamhet
[ ] Institut [ ] Institut
[ ] Ej relevant  
Precisera och kommentera:
 
4. Inom forskarsamhället har projektet/etappen resulterat i:
[ ] Ny forskargrupp [x] Doktorsavhandling(ar) [x] Ny vetenskaplig teori
[ ] Nytt forskarnätverk [ ] Licentiatavhandling(ar) [x] Ny vetenskaplig metod
[ ] Nytt institut [x] Examensarbete(n) [x] Ny vetenskaplig teknik
[ ] Ny centrumbildning [ ] Professur/adj professur [x] Vetenskapliga publikationer
[ ] Ny institution/avdelning [ ] Gästprofessur/gästforskare [ ] Vetenskapliga konferenser
[ ] Nytt forskningsprogram [x] Doktorandtjänst(er) [x] Vetenskapliga konferensbidrag
[ ] Ny forskarutbildning [ ] Industridoktorand(er) [ ] Ej relevant
 
5. Utanför forskarsamhället har projektet/etappen resulterat i:
[ ] Patent/patentansökan [ ] Ny teknik, ny utrustning [ ] Affärsplan/marknadsanalys
[ ] Immaterialrätter [ ] Ny praktisk metod [ ] Kommersialisering
[x] Produkt, system, program [ ] Tekniköverföring [ ] Nytt/nya företag
[ ] Prototyp [ ] Publikationer för praktiker [ ] Nytt/nya företagsnätverk
[x] Demonstration [ ] Utbildning för praktiker [ ] Organisationsförändring
[ ] Produktutveckling [ ] Seminarier för praktiker [ ] Underlag för politiska beslut
[ ] Andra policyunderlag [ ] Ej relevant
   
   


Datum Datum
   


Underskrift person behörig att teckna Bidragsmottagarens firma eller annan person behörig att underteckna kontrakt Underskrift person behörig att teckna Bidragsmottagarens firma eller annan person behörig att underteckna kontrakt (i de fall det krävs fler än en person)
   


Namnförtydligande Namnförtydligande
   


Titel Titel
   

 
Datum  
   

 
Underskrift projektledare  
   

 
Namnförtydligande