En metod för att assistera översättning av fråga-svarskorpusar med hjälp av språkagnostiska meningsvektorer

Sammanfattning

I detta examensarbete presenteras en metod som syftar till att minska mängden arbete som krävs för att översätta fråga-svarskorpuset SQuAD från engelska till svenska. Syftet med studien är att bidra till att minska glappet mellan språkteknologisk forskning på engelska och forskningen på språk med mindre resurser. Detta åstadkoms genom att beskriva en metod för att skapa korpusar liknande dem som används inom forskning på engelska och som kan användas för att utvärdera i vilken utsträckning resultat från den forskningen generaliserar till andra språk.

Metoden använder språkagnostiska meningsvektorer för att söka efter svar på engelska SQuAD-frågor i svenska Wikipedia-artiklar, och sedan ranka dessa. Sökresultaten används sedan för att para samman SQuAD-frågor med de svenska meningar som innehåller deras svar. Även utsträckningen i vilken svar på engelska SQuAD-frågor står att finna i den svenska upplagan av Wikipedia undersöktes. Andelen SQuAD-frågor där ett svar fanns i den svenska Wikipedia-artikel som var associerad med frågan var liten men ändå användbar. Vidare visar utvärderingen av metoden att den innebär en tydlig minskning av mängden arbete som krävs för att översätta SQuAD till svenska. Denna minskning åstadkoms samtidigt som mängden fråga-svarspar som missas som en konsekvens av detta är acceptabel för många användningsområden.

Manuellt arbete krävs fortfarande för att översätta SQuAD-frågorna från engelska och för att hitta var i de svenska meningarna som svaren finns. Vidare studier kring dessa frågor skulle bidra till att göra metoden än mer användbar, men ligger utanför avgränsningen för denna uppsats.

Presentatör: Thomas Vakili