John Robert Castronuovo

Swedish NLP Email Solutions

Sammanfattning

Att tilldela kategorier till textkommunikation är en grundläggande uppgift för Natural Language Processing (NLP). Under 2018 utvecklades ett nytt sätt att skapa en språkrepresentationsmodell, Bidirectional Encoder Representations from Transformers (BERT), som kan dra slutsatser en från text utan någon uppgiftsspecifik arkitektur. Min avhandling undersökte om en version av denna modell kan klassificera e-postmeddelanden bättre än en klassisk maskininlärningsmodell, till exempel en Support Vector Machine (SVM). I projektet utvecklades också en BERT-modell enbart förtränad på svenska (svBERT) som jämfördes med en flerspråkig BERT-modell (prestanda) på en svensk e-klassificeringsuppgift. I studien användes BERT i en klassificeringsuppgift för kundmeddelanden. Fjorton e-postkategorier definierades av klienten. Alla e-postmeddelanden var på svenska. Jag implementerade 3 olika SVM: er och 4 olika BERT-modeller för den här uppgiften. Den bästa F1-poängen för de tre klassiska maskininlärningsmodellerna (standard eller hybrid) och de fyra djupa inlärningsmodellerna bestämdes. Den bästa maskininlärningsmodellen var en hybrid SVM med fastText med en F1-poäng på 84,33% av korrekt klassificerade e-postmeddelanden. Den bästa djupa inlärningsmodellen, mPreBERT, uppnådde en F1-poäng på 85,16%. Resultaten visar att djupa inlärningsmodeller kan förbättra noggrannheten i klassiska maskininlärningsmodeller och troliggör att mer omfattande förutbildning med ett svensk textkorpus markant kommer att förbättra noggrannheten.