Vi hoppas att taggnings-tävlingen blir ett årligt återkommande evenemang och att värdskapet för tävlingen roterar. Vi hade tänkt anordna en tävling år 2000 men på grund av administrativa problem kunde vi inte genomföra det. Vi hoppas nu att någon annan entusiast vill gör a det istället.
I samband med en tävling skulle vi också kunna ta tillfället i akt att undersöka hur mycket bättre taggning som kan uppnås när flera olika taggare kombineras. Ett sådant system av fyra taggare har uppvisat 19% bättre taggning än den bästa ingående individuella taggaren (Halteren, Zavrel, Daelemans, 1998).
Synpunkter mottages tacksamt av Johan Carlberger, jfc@nada.kth.se.
Deltagarna bör i god tid före tävlingen komma överens om tagguppsättning.
Ju större text som används desto säkrare utfall, men också desto mer arbete för organisatören. Vi föreslår att fem oberoende, ej tidigare publicerade texter om 1000 ord vardera av typ dagstidningstext väljs.
Texten ska bestå av "vanlig" löptext utan rubriker.
Tävlingstexten publiceras på organisatörens webbsida klockan 12.00 tävlingsdagen. Deltagarna laddar ner texten, tokeniserar och taggar den och skickar in en fil med resultatet till organisatören. Filen ska vara organisatören tillhanda senast klockan 12.30 samma dag.
Här finns ett exempel på tävlingstextens format och den taggade filens format . Texten ska disambigueras fullständigt, dvs endast en tagg per token är tillåtet.
Givetvis ska texten till 100% tokeniseras och taggas maskinellt.
Intresserade deltagare bör höra av sig till organisatören senast en månad före utlyst tävlingsdatum. Deltarlista med kontaktuppgifter publiceras sedan på tävlingens webbsida.
När vi har kommit överens om exakta regler och när vi utarbetat nödvändiga metoder för att mäta täckning och precision för alla olika taggningsformat är vi redo för en "testtävling".
Som mått på taggningskvaliteten beräknas förslagsvis precisionen för ordklass och för ordklass + särdrag.
Om en taggad text innehåller tokeniseringsfel räknas ett fel för varje missad korrekt token.
Organisatören publicerar ett förslag till korrekt taggning av texten på tävlingens webbsida. De tokens som taggats på fler än ett sätt av deltagarna markeras och organisatören väljer manuellt den rätta taggen. Deltagarna har sedan möjlighet att invända mot organisatörens val. För de fall deltagarna är oense gäller majoritetsbeslut. Om flera tolkningar av en token är möjliga kan fler än en tagg räknas som korrekt. Den korrekta taggningen av texten och resultat publiceras på webbsidan.
Institution/ företag | Typ av taggare | Kontaktperson | Webbsida | |
NADA, KTH | HMM, trigram | Johan Carlberger | Granska | <jfc@nada.kth.se> |
TMH, KTH | regelinduktion | Nikolaj Lindberg, Martin Eineborg | TMH | <nikolaj@speech.kth.se> <eineborg@dsv.su.se> |
Lingsoft AB | regler | Fredrik Westerlund | Lingsoft | <fwesterl@lingsoft.fi> |
Språkdata, GU | Brills taggare | Dimitris Kokkinakis, Sofie Johansson Kokkinakis | Språkdata | <svedk@svenska.gu.se> <svesj@svenska.gu.se> |
LexWare Labs | regler | Elzbieta Dura | LexWare Labs | <elzbieta@lexwarelabs.com> |
GU Språk & Data AB | Brills taggare | Daniel Ridings | GU Språk & Data | <ridings@holding.gu.se> |
Lingvistik, GU | HMM, trigram | Leif Grönqvist, Joakim Nivre | Lingvistik, GU | <leifg@ling.gu.se> <nivre@ling.gu.se> |
Övriga intresserade kan kontakta Johan Carlberger, <jfc@nada.kth.se>.
Upp till Granskas startsida.