Cristian Osorio Bretti

Användning av ordinbäddningar och domänspecifik data för informationshämtning inom svenska konsumenthälsofrågor

Sammanfattning

Mängden information i de flesta av världens system ökar snabbt. För att kunna hitta relevant information i denna stora mängd data krävs bra informationssökningsalgoritmer (eng: information retrieval, IR). IR-algoritmer kan konstrueras och justeras så att de fungerar bra inom olika sökområden. Ett sådant område är konsumenthälsa, ett område där vanliga människor (konsumenter) söker efter medicinsk information. Ett sätt att förbättra IR-algoritmer är att använda ordinbäddningar (eng: word embeddings, WE). WE är vektorrepresentationer av ord som konstrueras så att liknande ord har liknande vektorer. Tidigare forskning har visat att användning av WE i IR ger lovande resultat.

I den här uppsatsen implementeras en IR-algoritm baserad på WE. Detta utvärderas inom området för svenska konsumenthälsofrågor med hjälp av sökloggar från en svensk digital vårdgivare som utvärderingsdata. Den populära BM25-algoritmen användes som referensalgoritm. En linjärkombination av WE-algoritmen och BM25-algoritmen, mixture model (MM), implementerades också. Experimenten avslöjade att en MM som mest liknar WE är att föredra. Vid utvärderingen av dessa tre algoritmer visade det sig att MM-algoritmen totalt sett presterade bäst. Fyra olika utvärderingsmått användes och MM-algoritmen var den näst bästa i tre och den bästa i ett. Eftersom MM-algoritmen var mest lik WE-algoritmen, indikerar det att användningen av WE i IR har en positiv effekt.

Även om ytterligare forskning inom området rekommenderas för att bekräfta dessa preliminära upptäckter, pekar denna uppsats på att WE potentiellt kan förbättra IR inom området svenska konsumenthälsofrågor.