Authors: Viktor Eklund och Fredrik Lindh

Komparativ analys av POS-tagging på olika språk

Sammanfattning

Den här rapporten utforskar skillnaderna mellan olika Part-Of-Speech Taggers (POST) applicerat på olika språk. Åtminstonde två olika implementationer av POST som bygger på markovmodeller jämförs och körs sedan på korpus av liknande typer, varpå utdata jämförs med korrekt annoterade facit. Felen som identifieras undersöks och klassificeras efter typ. I den påföljande analysen undersöks om felen är konsekventa inom ett givet språk samt om mönster bland felen kan ses mellan språken. Till sist hålles en diskussion relevant till utdatan och analysen där förslag till ändringar och tillägg till algoritmerna / programmen föreslås.

Inter-language analysis of POS-tagging

Abstract

This report explores the differences between different Parts-Of-Speech Taggers (POST) in different languages. At least two different implementations of POST using Markov models will be compared and then executed with corpuses of the same kind. The resulting data will then be compared with correctly annotated text. The identified errors will then be examined and classified by type. Following that, an analysis is conducted to determine whether the errors follow a pattern within a language, and if the same errors appear consistently between different languages. Finally a concluding chapter will bring together the data acquired from the tests with suggestions to possible amendments and additions to the algorithms the tagging software uses.