Det finns två syften med denna instruktion, dels att tala om hur man använder programmet vid språkgranskning och dels att beskriva hur man konstruerar egna språkgranskningsregler. Granskningen görs i huvudsak i tre nivåer:
Exempel 1. En regel som hittar felaktigt skrivna varianter på förkortningen o.s.v.
Ren ordmatchning görs genom att man skriver ett nyckelord för ordsekvensen i sökordsfältet. Med nyckelord menas det ord som är mest unikt för ordsekvensen. Nyckelordet skrivs också in ett fält i det som kallas delregel. Att ordet är regelns nyckelord markeras med ett ankare. Ankaret kan man flytta på genom att klicka i kolumnen under eller över ankaret. De efterföljande orden, om det finns några, skrivs på raderna efter. Du måste också klicka i rutan endast ord. Det går också att ange ett godtyckligt ord med jokertecknet *. Observera att * inte gäller flera godtyckliga ord.
Om en regel bara innehåller ett ord bör du fundera över om ordet inte skulle passa bättre i lexikonet, se avsnittet Att lägga in nya ord i lexikonet nedan.
Exempel 2. En regel för att hitta de felaktiga särskrivningarna härom veckan, härom dagen, härom dan, härom kvällen, härom natten, härom sistens, härom veckan, härom året.
Matchning på taggnivå är ett kraftfullare sätt att skriva regler. Reglerna blir mer generella. För att kunna skriva regler med taggar måste de olika taggarnas betydelse vara kända.
Vi använder de taggar som används i SUC (Stockholm Umeå Corpus), se tagglistan nedan. I delreglerna måste man skriva tecknet _
före taggnamnet, t.ex. _NN
för substantiv. Taggarna kan kombineras med logiska operatorer.
&
|
^
Alla utryck skall vara binära så parenteser är nödvändiga för att reglerna skall tolkas korrekt.
Exempel: (X & Y) & Z
I Granskas lexikon finns orden representerade enligt:
ord tagg1 & tagg2 & ...& taggn
I verkligheten ser det ut så här, konjunktionerna mellan taggarna är implicita:
bilen NN UTR SIN DEF NOM
Det finns också logiska kvantifikatorer i regelspråket som fungerar som i predikatlogik.
A
E
Kvantifieringen sker över de tolkningar som ett ord har i lexikonet. Allkvantifikatorn säger därmed att kraven (taggarna) på ordet måste gälla alla tolkningar som ordet har i lexikonet för att matchning skall ske. Existenskvantifikatorn säger att det måste existera minst en tolkning sådan att taggarna gäller. Kombineras kvantifikatorerna med negation kan man få t.ex. få fram att det inte får existera en tolkning sådan att taggarna gäller.
För att förenkla för regelskrivaren behöver denna inte ange alla taggar som ett ord har i lexikon, utan det räcker med dem som är nödvändiga för att önskvärd matchning skall uppnås.
Exempel 3. En regel för att hitta nominalfraser som består av ett substantiv eller egennamn i genitiv följt av ett bestämt substantiv i nominativ, t.ex. Pelles boken, mannens hattarna.
Det går att skriva regler som blandar matchning med ord och taggar. Dels går det att kombinera delregler som innehåller ord eller taggar och dels går det att skriva delregler som kombinerar ordformer med taggar. Vill man t.ex. hitta alla pronomenformer av ordet man så skrivs den ortografiska formen följt av taggen PN (pronomen) d.v.s. delregeln:
man & _PN
I nuläget är emellertid detta verkningslöst eftersom orden har tilldelats alla möjliga tolkningar, vilket innebär att delregeln ovan kommer att ge träffar också på substantivet man. För att verkligen få man som pronomen måste man ange kontext. Det kan t.ex. vara att man inte får föregås av en artikel eller ett adjektiv.
Exempel 4. En regel som signalerar att ordet fakta inte skall användas i singularis.
Istället för att skriva regler för enstaka ord är det bättre att skriva in ordet lexikonet. För att ordet skall kunna användas av reglerna måste ordet taggas. Att själv lägga in ord i lexikonet (ett fristående användarlexikon) är i nuläget inte möjligt
I listan nedan finns de ordklass- och morfosyntaktiska taggar, tagna från SUCs taggsystem, som man kan använda för att skriva regler. Det finns också stiltaggar som är tentativa, dessa finns i en lista efter SUC-taggarna. Regelskrivaren ansvarar själv för att taggarna kombineras på ett vettigt sätt. Ett enkelt sätt att ta reda på vilka taggar ett ord har är att skriva in ordet i texteditorn i Granska och sedan klicka på ordet såsom beskrivs i avsnittet Resultatet av en granskning ovan.
SUC-tagg | Betydelse |
Exempel på ord som har taggen |
AB | adverb | inte |
AKT | aktiv form | spelar |
AN | förkortning | t.ex. |
DEF | definit | bilen |
DL | skiljetecken | . |
DT | determinerare (artikel) | den |
GEN | genitiv | bilens |
HA | frågande/relativt adverb | när |
HD | frågande/relativ determinerare | vilken |
HP | frågande/relativt pronomen | vem |
HS | frågande/relativ possessiv | vems |
IE | infinitivmärke | att |
IMP | imperativ | spring |
IN | interjektion | ja |
IND | indefinit | bil |
IND/DEF | indefinit/Definit | gula |
INF | infinitiv | spela |
JJ | adjektiv | gula |
KN | konjunktion | och |
KOM | komparativ | gulare |
KON | konjunktiv form | vare |
MAD | skiljetecken i slutet av en mening | . |
MAS | maskulinum | gule |
MID | skiljetecken inom en mening | , |
NEU | neutrum | huset |
NN | nomen (Substantiv) | bilen |
NOM | nominativ | bilen |
OBJ | objektform | mig |
PC | particip | kastad |
PL | partikel | om |
PLU | plural | bilar |
PM | egennamn | Svensson |
PN | pronomen | hon |
POS | positiv | gul |
PP | preposition | till |
PRF | perfekt | kastad |
PRS | presens | spelar |
PRT | preteritum | spelade |
PS | possessiv | mina |
RG | räkneord grundtal | två |
RO | räkneord ordningstal | andra |
SFO | s-form, passiv eller deponens | behövdes |
SIN | singular | bil |
SIN/PLU | singular/plural | boxande |
SMS | sammansättning | pojk- (och flickrum) |
SN | subjunktion | om |
SUB | subjekt | jag |
SUB/OBJ | subjekt/objekt | den |
SUP | supinum | spelat |
SUV | superlativ | gulast |
UO | utländskt ord | action |
UTR | utrum | bil |
UTR/NEU | utrum/neutrum | gula |
VB | verb | spela |
Stiltagg | Betydelse |
Exempel på ord som har taggen |
ABSO | abstrakt ord | rubricerade |
ABSP | abstrakt preposition | beträffande |
DATA | dataterm | password, e-mail |
DATF | dataförkortning | CD-ROM, kBit |
FELT | Ord som lätt feltolkas | bordla |
FOAL | formella eller ålderdomliga ord | förebringa, besvärstalan |
FRAM | främmande ord | stigmor |
FSMS | felaktig sammansättning | nuförtiden, varsin |
ONFL | onödiga förlängningar | befrämja |
PAVB | partikelverb | handha |
SVBA | svårbegripligt ord, mer än 75 % missförstår. | delegerar |
SVBB | svårbegripligt ord, mellan 50 och 75 % av svenskarna missförstår | disponibel |
TIDU | tidsuttryck | julafton |
TVET | tvetydiga ord | utgick |
VARD | vardagliga ord | dej |
Sidansvarig: Ola Knutsson <knutsson@nada.kth.se>
Senast ändrad 21 november 1997
Tekniskt stöd: <webmaster@nada.kth.se>