Swedish NLP Solutions | John Robert Castronuovo

Att tilldela kategorier till textkommunikation är en grundläggande uppgift för Natural Language Processing (NLP). Under 2018 utvecklades ett nytt sätt att skapa en språkrepresentationsmodell, Bidirectional Encoder Representations from Transformers (BERT), som kan dra slutsatser en från text utan någon uppgiftsspecifik arkitektur. Min avhandling undersökte om en version av denna modell kan klassificera e-postmeddelanden bättre än en klassisk maskininlärningsmodell, till exempel en Support Vector Machine (SVM). I projektet utvecklades också en BERT-modell enbart förtränad på svenska (svBERT) som jämfördes med en flerspråkig BERT-modell (prestanda) på en svensk e-klassificeringsuppgift. I studien användes BERT i en klassificeringsuppgift för kundmeddelanden. Fjorton e-postkategorier definierades av klienten. Alla e-postmeddelanden var på svenska. Jag implementerade 3 olika SVM: er och 4 olika BERT-modeller för den här uppgiften. Den bästa F1-poängen för de tre klassiska maskininlärningsmodellerna (standard eller hybrid) och de fyra djupa inlärningsmodellerna bestämdes. Den bästa maskininlärningsmodellen var en hybrid SVM med fastText med en F1-poäng på 84,33% av korrekt klassificerade e-postmeddelanden. Den bästa djupa inlärningsmodellen, mPreBERT, uppnådde en F1-poäng på 85,16%. Resultaten visar att djupa inlärningsmodeller kan förbättra noggrannheten i klassiska maskininlärningsmodeller och troliggör att mer omfattande förutbildning med ett svensk textkorpus markant kommer att förbättra noggrannheten.

John Robert Castronuovo

Swedish NLP Email Solutions

Sammanfattning