In English
CrossCheck - svensk grammatikkontroll för andraspråksskribenter
I detta forskningsprojekt som avslutades i februari 2005 har vi utvecklat
grammatikgranskningsprogram speciellt avpassade för användare med svenska
som andraspråk.
Projektet var ett samarbete mellan KTH Nada och Institutionen för
Lingvistik på SU. Det finansierades 2001-2004 av Vinnova inom Språkteknologiprogrammet samt av KTH och SU.
Kort urprunglig beskrivning av projektet
För svenska språket saknas det verktyg som tar hänsyn till de behov
som icke-infödda skrivare har. CrossCheck ska bli ett sådant verktyg
för språkgranskning: stavnings- och grammatikkontroll.
Projektet kommer att resultera i ett antal webbdemonstratorer
(se skrutten.nada.kth.se), ett antal program (Stava, Granska,
AutoEval, Missplel, Sammanstava med flera) och en väl uppmärkt
andraspråkskorpus. Webbdemonstratorerna kan användas av vem som
helst. Programmen och korpusen kan användas av alla forskare.
Vi utgår i arbetet från vår svenska språkgranskare Granska,
vars tyngsta beståndsdelar är en ordklasstaggare och granskningsregler
skrivna i ett skräddarsytt regelspråk. Vi vill anpassa Granska för
andraspråksskribenter genom att konstruera en feltypologi och sedan
skriva granskningsregler enligt denna. Fel som inte kan upptäckas med
dessa regler kommer vi att försöka fånga med olika statistiska
grammatikkontroller.
För att kunna konstruera feltypologin, träna den statistiska
grammatikkontrollen och evaluera hur bra granskningen blir behöver vi
en korpus över andraspråkssvenska. Vi kommer att lägga ner stor möda
på att bygga en väl uppmärkt sådan korpus.
Projektet samarbetar även med Göteborgs universitet och Uppsala universitet.
Webbdemonstration av Granska
Vår grammatikgranskare Granska går bra att prova på webben i flera versioner:
- Enkel och snabb version, använder PHP och en granskningsserver
- Grim (ej online längre) - textanalysator, använder Javaapplet och Javascript, innehåller också ProbGranska
-
TvärGranska (ej online längre) - en interaktiv
version, använder JSP och Javascript
- Förhandsgranska,
grafiskt gränssnitt i Javascript. Förhandsgranska är tänkt som
ersättning till Grim och TvärGranska.
- Ursprunglig långsam version, använder CGI
- Snålgranska, granskare av annorlunda modell som kräver särskilt lite manuellt arbete vid
utvecklingen, använder en granskningsserver. Snålgranska ingår också i
Förhandsgranska ovan.
Populärvetenskapliga beskrivningar
Deltagare i projektet
Tidigare forskningsprojektet om Granska
I projektet Integrated language tools for writing and document handling
utvecklades grammatikkontrollprogrammet Granska som CrossCheck
till stor del bygger på.
Temadag 15 april 2002
Eftermiddagen den 15 april 2002 anordnade projektet en temadag på KTH för alla
som är intresserade av grammatikgranskning av andraspråkssvenska. Mer information om temadagen finns här.
Nerladdningsbara verktyg
I projektet har flera språkteknologiska verktyg utvecklats som finns
tillgängliga i källkodsform
här.
Rapporter och arbetsdokument
2005
-
Johnny Bigert, Viggo Kann, Ola Knutsson, Jonas Sjöbergh (2005).
Grammar checking for Swedish second language learners.
Chapter in CALL for the Nordic Languages, 33-47
Copenhagen Studies in Language 30, Copenhagen Business School. Samfundslitteratur.
PDF
-
Johnny Bigert, Jonas Sjöbergh, Ola Knutsson, Magnus Sahlgren (2005).
Unsupervised Evaluation of Parser Robustness
Proc. CICLING 2005, Mexico City.
LNCS 3406, 142-154.
PDF
-
Johnny Bigert (2005).
Automatic and Unsupervised Methods in Natural Language Processing.
Doktorsavhandling, KTH Nada, TRITA-NA-0508.
PDF
-
Johnny Bigert (2005).
Unsupervised evaluation of Swedish spell checker correction suggestions.
Proc. Nodalida 2005, Joensuu, Finland.
-
Jonas Sjöbergh (2005).
Chunking: an unsupervised method to find errors in text.
Proc. Nodalida 2005, Joensuu, Finland.
PDF
2004
-
Johnny Bigert (2004).
Probabilistic detection of context-sensitive spelling errors.
Proc. LREC 2004 (4th Int. Conf. Language Resources and
Evaluation), Lissabon, Portugal.
PDF
-
Johan Carlberger, Rickard Domeij, Viggo Kann, Ola Knutsson (2004).
The development and performance of a grammar checker for Swedish: A language engineering perspective.
submitted, december 2004.
PDF.
-
Janne Lindberg och Gunnar Eriksson (2004).
CrossCheck-korpusen - en elektronisk svensk inlärarkorpus.
Proceedings för ASLA-konferensen 2004. Södertörns högskola.
Abstract som DOC
-
Jonas Sjöbergh, Viggo Kann (2004).
Finding the correct interpretation of Swedish compounds, a statistical approach.
Proc. LREC 2004 (4th Int. Conf. Language Resources and
Evaluation), Lissabon, Portugal.
PDF
-
Jonas Sjöbergh, Ola Knutsson (2004).
Faking errors to avoid making errors: Machine learning for error detection in writing.
Submitted.
PDF
-
Ola Karlsson (2004). Skrivstöd för andraspråksskribenter - användaranpassning av språkkontrollen Granska för andraspråkssvenskar som skriver i arbetet. Master's thesis in Scandinavian Languages, Department of Scandinavian Languages, Stockholm University. PDF
-
Stefan Westlund (2004).
Utformning och implementation av en interaktiv miljö för andraspråksinlärning. Master's thesis in Computer Science, Department of Numerical Analysis and Computer Science, Royal Institute of Technology. PDF
2003
-
Johnny Bigert, Ola Knutsson och Jonas Sjöbergh (2003).
Automatic evaluation of robustness and degradation in tagging and parsing.
RANLP 2003, Borovets, Bulgarien.
PDF
-
Johnny Bigert, Linus Ericson och Antoine Solis (2003).
AutoEval and Missplel: Two generic tools for automatic evaluation.
Proc. NoDaLiDa 2003, Reykjavik, Island.
PDF
-
Lars Borin och Klas Prütz (2003):
New wine in old skins? A corpus investigation of L1 syntactic transfer
in learner language. Teaching and language corpora (TaLC) 2002.
Rodopi (Amsterdam).
PDF.
-
Jens Eeg-Olofsson och Ola Knutsson (2003):
Automatic grammar checking for second language learners - the use of prepositions.
Proc. NoDaLiDa 2003, Reykjavik, Island.
PDF
-
Ola Knutsson, Johnny Bigert och Viggo Kann (2003).
A robust shallow parser for Swedish.
Proc. Nodalida 2003, Reykjavik, Island.
PDF
-
Ola Knutsson, Tessy Cerratto Pargman och Kerstin Severinson Eklundh (2003):
Transforming grammar checking technology into a learning environment for
second language writing.
Proc. HLT/NAACL 2003 workshop: Building Educational Applications Using NLP,
Edmonton, Canada.
PDF
-
Jonas Sjöbergh (2003a):
Combining POS-taggers for improved accuracy on Swedish text,
Proc. NoDaLiDa 2003, Reykjavik, Island.
PDF
-
Jonas Sjöbergh (2003b):
Stomp, a POS-tagger with a different view.
RANLP 2003, Borovets, Bulgarien.
PDF.
-
Jonas Sjöbergh (2003c):
Bootstrapping a free part-of-speech lexicon using a proprietary lexicon.
ICON 2003, Indien.
PDF.
-
Andreas Aarflot (2003).
Annoteringsverktyg för korpusarbete med Granska som grund.
Examensarbete i datalogi, Nada, SU, TRITA-NA-E03101.
PDF
-
Helena Ihrfors (2003).
Annoteringsverktyg för korpusarbete - användarapplikation.
Examensarbete i datalogi, Nada, SU.
PDF
-
Ylva Stenervall (2003).
TvärGranska - interaktiv webbmiljö för språkgranskning med inriktning mot andraspråksinlärare.
Examensarbete i Publiceringsteknik, KTH Nada.pdf
2002
-
Johnny Bigert:
POS Tag Distance Metrics and Unsupervised Error Detection,
februari 2002.
-
Johnny Bigert och Ola Knutsson:
Phrase Structures in Unsupervised Error Detection,
februari 2002.
- Johnny Bigert och Jonas Sjöbergh: Förslag till format på korpusannotering, mars 2002.
- Domeij, R., Knutsson, O. och Severinson Eklundh, K. (2002). Different
Ways of Evaluating a Swedish Grammar Checker.
Proceedings of The Third International Conference on Language
Resources and Evaluation (LREC 2002), Las Palmas, Spain.
PDF
- Ola Knutsson (2002): Datorn som språkgranskare,
Språkvård nr 1 2002, sida 26-33.
- L. Borin och T. Cerratto (2002).
Översikt över forskningsområdet, mars 2002.
RTF
- L. Borin (2002).
Where will the standards for intelligent computer-assisted language learning come from?
LREC 2002, Third Int. Conf. Language Resources and Evaluation Workshop Proceedings. International standards of terminology and language resources management. Las Palmas: ELRA. 61-68.
- J. Bigert och O. Knutsson (2002).
Robust error detection: A hybrid approach combining
unsupervised error detection and linguistic knowledge.
Proc. 2nd Workshop Robust Methods in Analysis of Natural language Data (ROMAND'02), Frascati, Italy, juli 2002, sida 10-19.
- Johnny Bigert, Ola Knutsson, Viggo Kann, Jonas Sjöbergh (2002).
Annotated Clauses and Flat Phrase Structures for Swedish,
Swedish Treebank Symposium, Växjö, november 2002.
PDF
- L. Borin (2002).
What have you done for me lately?
The fickle alignment of NLP and CALL.
EuroCALL 2002 pre-conference workshop on NLP in CALL, Jyväskylä, Finland, augusti 2002.
PDF
- O. Knutsson, T. Cerratto Pargman, K. Severinson Eklundh (2002). Computer support for second language learners' free text production - Initial studies. Proc. ICL2002, 5th International Workshop on Interactive Computer Aided Learning, Villach, Austria.
PDF
- Alexander Baltatzis (2002).
Språkgranskning med reguljära uttryck,
examensarbete på Nada, augusti 2002. TRITA-NA-E02101.
PDF
- Jens Eeg-Olofsson (2002).
Feltaxonomi för automatisk språkgranskning av svensk text,
C-uppsats i datorlingvistik, februari 2002.
PDF
- Magnus Johansson (2002).
Hjälpmedel för regelkonstruktion - verktyg för att underlätta skapande av regler till Granska,
examensarbete på Nada, september 2002.
PDF
- Jens Eeg-Olofsson (2002).
Prepositioner och automatisk textgranskning för andraspråksinlärare,
magisteruppsats i datorlingvistik, december 2002.
PDF
Projektdokumentation
Länkar
Upp till forskning i språkteknik.
Sidansvarig: Viggo Kann <viggo@nada.kth.se>