En kompakt språkmodell för svensk textanonymisering

Victor Wiklund

Sammanfattning:

I och med dataskyddsförordningen (GDPR) som började gälla 2018 krävs det att personlig information måste anonymiseras innan den kan användas fritt för statistik och forskning. För att anonymisera en text krävs det att man kan upptäcka de ord som bär på personlig information såsom namn, platser och organisationer. Named Entity Recognition (NER) är ett område inom datavetenskap som handlar om hur man automatiskt kan upptäcka dessa typer av ord, och under det senaste årtiondet flera framsteg gjorts inom det. Dessa framsteg är i allmänhet resultatet av kombinationen av maskininlärning och bättre datorer, men speciellt utvecklingen av allmänna språkmodeller tränade på massiva mängder språkdata har varit viktig. Dessa modeller tenderar tyvärr att vara väldigt resurskrävande och alla har inte tillräckligt bra datorer för att kunna utnyttja dem. ALBERT är en nyutvecklad språkmodell som frångår den allmänna trenden att utveckla mer och mer komplexa språkmodeller till förmån för att bli mer resurssnål, på en liten bekostnad av prestanda. I det här arbetet utforskar vi användningen av ALBERT för anonymisering av svensk text genom att kombinera modellen med en enkel BiLSTM-klassificerare och att testa den på Stockholm-Umeå korpuset. Våra resultat visar att systemet lyckas skilja på personligt identifierande information och vanliga ord i 79.4 procent av fallen samt att den är bäst på att känna igen namn, med en F1-poäng på 87.7 procent. Sett över de åtta mest intressanta ordkategorierna i korpuset erhåller vi en F1-poäng på 77.8% med femfaldig korsvalidering och 77.0 +- 0.2% på testdatan med 95% konfidens. Vi finner att systemet i dess nuvarande tillstånd skulle kunna anonymisera vissa typer av information, men endast med en risk för att även mindre känslig information skulle döljas. Vi diskuterar sätt lösa detta problem och drar slutsatsen att ALBERT kan vara en användbar komponent i svensk anonymisering förutsatt att den optimeras till en högre grad.