CrossCheck-korpusen - en elektronisk svensk inlärarkorpus

Nada

CrossCheck-korpusen - en elektronisk svensk inlärarkorpus

Janne Lindberg & Gunnar Eriksson, Institutionen för lingvistik, SU

En korpus över inlärarsvenska (L2-inlärning) har tagits fram. Korpusen har i projektet primärt utgjort ett underlag för grammatikgranskaren men kommer även att göras tillgänglig för andraspråksforskare och andra intresserade språkforskare via Språkbanken.

Korpusen består av fem delar. Tre av delarna består av L2-material och två av delarna består av L1-material, alltså texter skrivna av svenska gymnasieelever med svenska som modersmål. Dessa delar är tänkta att utgöra en "jämförelsekorpus".

SSM-delen (Svenska som Målspråk) Handskrivna uppsatser från 196 st vuxna invandrare i svenskundervisning insamlade 1972-1975 har skrivits in (gjort utanför CrossCheck), scannats, och taggats. Uppsatserna omfattar cirka 112.000 ord. 10 modersmål finns representerade. I normalfallet har varje försöksperson producerat flera texter i mer än ett kursstadium.
SFI-delen Insamlade på Centrum för Tvåspråkighet, Stockholms universitet. Originaltexterna är handskrivna år 1997 av elever i SFI-undervisning. Delen innehåller 73.000 ord fördelat på 275 filer och lika många vuxna skribenter. Även dessa texter har skrivits in (gjort utanför CrossCheck), scannats och taggats. I denna delkorpus är försökspersonerna representerade med en text från ett skrivtillfälle. Skribenternas kunskapsnivå liksom modersmål varierar.
Granska-delen Granskamaterialet innehåller 65 textfiler om c:a 35.000 ord. Det är fördelat på 10 skribenter. Materialet är insamlat på Inst. för Nordiska språk, Stockholms universitet. Syftet var att testa Nadas grammatikgranskare Granska men också att studera effekterna av Granska, samt att bygga upp korpusresurser samt nya grammatikgranskare. Detta material innehåller en del ganska avancerade texter, t ex protokoll och uppsatser.
Argus-delen Projektet har även fått tillgång till databasen ARGUS av Uppsala universitet, Inst. för nordiska språk, FUMS. Det är en databas innehållande 287 argumenterande texter (c:a 120.000 ord) skrivna av gymnasieelever i svenskundervisning med svenska som modersmål.
SvSFI-delen SFI-prov 5 (samma som i SFI-delen) gavs också till 10 gymnasieelever med svenska som modersmål. Dessa producerade var sin text. Detta material har vi, liksom SFI-delen, erhållit från Inger Lindberg på Centrum för Tvåspråkighet, Stockholms universitet.

Förekomsten av scannade handskrifter för delar av korpusen gör att en forskare alltså får tillgång till en version med strukturell/tolkande annotering av originaltexterna och kan dessutom gå tillbaka till originaltexten vid behov.

Korpusen tillhandahålls med två typer av XML-annotering. Den ena sortens annotering beskriver den textuella strukturen med rubriker, brödtext, inledning, avslutning, etc. Svårigheter för annoteraren att tolka den handskrivna förlagan markeras också. Den andra sortens annotering härrär från Granskas morfologiska/syntaktiska analyssystem. Texterna har också försetts med ett texthuvud med referenser till dtd:er, scannade handskrifter och skribentfil, mm.

Utförlig information om skribenterna samt om skrivuppgifternas identitet, instruktioner och typ finns också, vilket möjliggör en mängd olika typer av sökningar för t ex andraspråksforskare.

Publikation

Janne Lindberg och Gunnar Eriksson (2004). CrossCheck-korpusen - en elektronisk svensk inlärarkorpus. Proceedings för ASLA-konferensen 2004. Södertörns högskola. Abstract som DOC

Upp till CrossCheck.

Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 26 februari 2005
Tekniskt stöd: <webmaster@nada.kth.se>