Lägesrapport för CrossCheck skickad till Vinnova 2002-03-31 Insamlandet av den skrivna svenska andraspråkskorpusen har påbörjats och går enligt planerna. Följande material är under insamling och bearbetning: (1) SSM-korpusen, c:a 100.000 ord uppsatser skrivna av vuxna SFI-kursdeltagare med 10 olika modersmål under 1970-talet, insamlade av Björn Hammarberg vid Institutionen för lingvistik, Stockholms universitet. Med hjälp av de handskrivna uppsatserna samt inskannade maskinskrifter av desamma ställs en korpus samman. Data som källspråk, stadium, ålder osv kommer att kunna användas som sökkriterier vid sökning i korpusen. TEI ger riktlinjer för hur man kan koda osäkerheter i tolkningen av handskrifterna. (2) Den skrivna delen av ASU-korpusen (från Björn Hammarberg). (3) Uppsatser skrivna av Svenska2-studenter vid Institutionen för nordiska språk, Uppsala universitet. Material inkommer kontinuerligt i form av elektroniska dokument. Vi har blivit lovade men ännu inte fått en hel del annat material. Vi fortsätter att aktivt leta efter mer lämpligt material att infoga i korpusen. Vi diskuterar olika slag av samarbete med Inger Lindberg och Sofie Kokkinakis Johansson vid Institutionen för svenska språket, Göteborgs universitet. Vi har tagit fram ett förslag till korpusannotering och en liten exempelkorpus i detta format. Vi har skrivit två artiklar om statistisk grammatikgranskning och skickat till Coling2002. Fortsatt forskning kommer bl.a. att behandla hur kontext förbättrar detektionen av grammatiska fel. En användarstudie är inledd och ett antal användare av Granska följs under en längre tid. Användarna har svenska som andraspråk. Användarna betygsätter Granskas återkoppling, det vill säga markeringar, diagnoser och ersättningsförslag. Vi har utökat funktionaliteten hos, rättat fel i samt på annat sätt förbättrat taggaren från Granskaprojektet. Vi planerar att använda den taggade Parolekorpusen för att förbättra taggningskvaliteten. Vi har skapat en del mindre verktyg för lexikonbyggande, jämförelse av olika taggares resultat samt utvinnande av korpus ur Nationalencyklopedin, som vi har fått tillgång till. Domeij, R., Knutsson, O. & Severinson Eklundh, K. (2002). Different Ways of Evaluating a Swedish Grammar Checker. To appear in Proceedings of The Third International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas, Spain. Bigert, J. (2002). POS Tag Distance Metrics and Unsupervised Error Detection, submitted February 2002. Bigert, J. & Knutsson, O. (2002). Phrase Structures in Unsupervised Error Detection, submitted February 2002.