Vid Nada, institutionen för numerisk analys och datalogi, forskar docent Viggo Kann om hur väl man kan få datorn att automatiskt rättstava en svensk text. Projektet heter Algoritmer för svenska språkverktyg.
Varför har ordbehandlare så svårt att upptäcka stavfel i texter skrivna på svenska? En förklaring är att de flesta ordbehandlare är gjorda i första hand för engelska, och det är lättare för datorn att se om ett engelskt ord är felstavat än ett svenskt. Detta beror på att svenskan har många fler böjningsformer och framför allt att svenska ord kan vara sammansättningar som består av nästan hur många sammansättningsled som helst.
Ett annat problem är att en felstavning av ett ord kan bli ett annat riktigt ord. Om man till exempel råkar kasta om de två sista bokstäverna i ordet för får man frö, och sådana fel är det förstås mycket svårt att upptäcka utan en grammatisk analys av texten.
Hur bär man sig då åt för att konstruera ett bra svenskt rättstavningsprogram? I ett projekt finansierat av humanistisk-samhällsvetenskapliga forskningsrådets språkteknologiprogram har en grupp forskare på Nada ägnat sig åt denna fråga.
Först och främst måste programmet ha en stor ordlista, men en stor ordlista ställer också till problem. Dels tar det längre tid att söka i en stor ordlista, dels är datorns minne begränsat och dels är det inte alltid bra att ta med många ovanliga ord, för då ökar risken för att en felstavning ska sammanfalla med ett ord i ordlistan. Dessutom finns det oändligt många tänkbara svenska sammansatta ord, så det är hopplöst att försöka lagra alla ord i en ordlista.
Mycket ovanliga ord kan vara vanliga i vissa facktexter. Detta tar man hänsyn till genom att använda tilläggsordlistor med till exempel datatermer, kemitermer eller juridiktermer.
Med hjälp av ordfrekvenser och stavfelsfrekvenser kan datorn sedan rangordna rättelseförslagen och föreslå den troligaste rättelsen. I en undersökning lyckades vårt rättstavningsprogram korrigera 70% av felen i ett antal tidningstexter riktigt. Det visar att datorn även utan mänsklig hjälp kan hitta och korrigera de flesta felen, men den bästa rättstavningen får man trots allt om datorn och människan samarbetar.
Vårt rättstavningsprogram Stava är fortfarande under utveckling och finns inte för PC eller Mac. Den som vill prova en demoversion av Stava kan hitta det i WWW på adressen http://www.csc.kth.se/~viggo/stava/
Upp till Stavas hemsida.
Sidansvarig: <viggo@nada.kth.se>
Senast ändrad 26 juni 1997