Tove Tengvall

En metod för automatisk frågebesvaring på svenska baserad på BERT

Sammanfattning

Denna rapport presenterar en metod för automatisk läsförståelse på svenska. Metoden är baserad på BERT, en förtränad svensk neural nätverksspråkmodell, som finjusterats på ett svenskt fråga-svar korpus. Korpusen samlades in genom att låta mänskliga annoterare författa frågor på stycken av text återfunna i svenska Wikipedia-artiklar samt artiklar från Migrationsverket. Modellens uppgift var att returnera den passage i texten som utgjorde rätt svar på en given fråga. Korpusen delades upp i 910 fråga-och-svarspar för träning och 105 par för validering. Metodens kvalitet utvärderades på 257 frågor. De returnerade svaren jämfördes med de korrekta svaren från korpuset, samt med resultaten från en enklare grammatisk metod som utvecklades som en jämförelse (en baslinje).

Med hjälp av den finjusterade svenska BERT-basmodellen kan vi uppnå en F-poäng på 78,1% och en exakt matchning på 63,0% när vi utvärderar modellen på samlingen frågor som genererats i studien. Modellen överträffar baslinjen och kan betraktas som en framgångsrik metod för den definierade uppgiften. Även om resultaten indikerar att BERT har stor potential som en automatisk frågebesvarande metod på svenska, är resultaten inte lika bra som de resultat som uppvisas av den engelska BERT-basmodellen finjusterad på det engelska fråga-svar korpusen SQuAD. Anledningen till den svenska modellens sämre prestanda kan möjligtvis förklaras av att korpuset som använts i den här studien är betydligt mindre i storlek än SQuAD.