Nada

Taggnings-tävling

Vi tror att ett trevligt sätt att sammanföra och sporra utvecklare av ordklasstaggare för svenska kan vara en tävling i automatisk taggning. Här följer ett utkast till hur en sådan tävling kan gå till.

Vi hoppas att taggnings-tävlingen blir ett årligt återkommande evenemang och att värdskapet för tävlingen roterar. Vi hade tänkt anordna en tävling år 2000 men på grund av administrativa problem kunde vi inte genomföra det. Vi hoppas nu att någon annan entusiast vill gör a det istället.

I samband med en tävling skulle vi också kunna ta tillfället i akt att undersöka hur mycket bättre taggning som kan uppnås när flera olika taggare kombineras. Ett sådant system av fyra taggare har uppvisat 19% bättre taggning än den bästa ingående individuella taggaren (Halteren, Zavrel, Daelemans, 1998).

Synpunkter mottages tacksamt av Johan Carlberger, jfc@nada.kth.se.

Val av tagguppsättning

De tagguppsättningar som finns att välja bland är SUC, SWETWOL och någon variant av dessa. Om vi använder skärningen av SUC och SWETWOL kan varje deltagare själv välja uppsättning, varvid organisatören ombesörjer ommappning från SUC/SWETWOL till skärningen.

Deltagarna bör i god tid före tävlingen komma överens om tagguppsättning.

Val av text

Det bästa tillvägagångssättet vore naturligtvis om en oberoende person väljer tävlingstext och utvärderar resultatet. Att hitta en sådan person kan vara svårt; betydligt enklare är att organisatören sköter detta (på ett opartiskt sätt).

Ju större text som används desto säkrare utfall, men också desto mer arbete för organisatören. Vi föreslår att fem oberoende, ej tidigare publicerade texter om 1000 ord vardera av typ dagstidningstext väljs.

Texten ska bestå av "vanlig" löptext utan rubriker.

Tävlingsförfarande

Tävlingstexten publiceras på organisatörens webbsida klockan 12.00 tävlingsdagen. Deltagarna laddar ner texten, tokeniserar och taggar den och skickar in en fil med resultatet till organisatören. Filen ska vara organisatören tillhanda senast klockan 12.30 samma dag.

Här finns ett exempel på tävlingstextens format och den taggade filens format . Texten ska disambigueras fullständigt, dvs endast en tagg per token är tillåtet.

Givetvis ska texten till 100% tokeniseras och taggas maskinellt.

Intresserade deltagare bör höra av sig till organisatören senast en månad före utlyst tävlingsdatum. Deltarlista med kontaktuppgifter publiceras sedan på tävlingens webbsida.

Prelimärt tävlingsdatum

När vi har kommit överens om exakta regler och när vi utarbetat nödvändiga metoder för att mäta täckning och precision för alla olika taggningsformat är vi redo för en "testtävling".

Utvärdering av resultat

Eftersom texten ska vara tidigare opublicerad och därmed okänd för deltagarna är den inte heller taggad tidigare. För att minimera utvärderingsarbetet antas att om alla deltagare valt samma tagg för en token är denna tagg rätt. Det innebär att det absoluta resultatet för de olika taggarna kan överskattas något, men att de relativa skillnaderna taggarna emellan inte påverkas jämfört med om hela texten skulle taggas manuellt.

Som mått på taggningskvaliteten beräknas förslagsvis precisionen för ordklass och för ordklass + särdrag.

Om en taggad text innehåller tokeniseringsfel räknas ett fel för varje missad korrekt token.

Organisatören publicerar ett förslag till korrekt taggning av texten på tävlingens webbsida. De tokens som taggats på fler än ett sätt av deltagarna markeras och organisatören väljer manuellt den rätta taggen. Deltagarna har sedan möjlighet att invända mot organisatörens val. För de fall deltagarna är oense gäller majoritetsbeslut. Om flera tolkningar av en token är möjliga kan fler än en tagg räknas som korrekt. Den korrekta taggningen av texten och resultat publiceras på webbsidan.

Priser

Pris till bästa taggare är tre (taggade) starka verb.

Deltagare år 2000

Följande grupper har anmält sig som intresserade av att vara med i taggningstävlingen år 2000:

Institution/ företagTyp av taggareKontaktpersonWebbsidae-mail
NADA, KTHHMM, trigramJohan CarlbergerGranska<jfc@nada.kth.se>
TMH, KTHregelinduktionNikolaj Lindberg, Martin EineborgTMH<nikolaj@speech.kth.se> <eineborg@dsv.su.se>
Lingsoft ABreglerFredrik WesterlundLingsoft<fwesterl@lingsoft.fi>
Språkdata, GUBrills taggareDimitris Kokkinakis, Sofie Johansson KokkinakisSpråkdata<svedk@svenska.gu.se> <svesj@svenska.gu.se>
LexWare LabsreglerElzbieta DuraLexWare Labs<elzbieta@lexwarelabs.com>
GU Språk & Data ABBrills taggareDaniel RidingsGU Språk & Data<ridings@holding.gu.se>
Lingvistik, GUHMM, trigramLeif Grönqvist, Joakim NivreLingvistik, GU<leifg@ling.gu.se> <nivre@ling.gu.se>

Övriga intresserade kan kontakta Johan Carlberger, <jfc@nada.kth.se>.

^ Upp till Granskas startsida.


Sidansvarig: Johan Carlberger <jfc@nada.kth.se>
Senast ändrad 18 september 2001
Tekniskt stöd: <webmaster@nada.kth.se>