Niklas Reje

Generering av Syntetisk Data; en Jämförelse av Metoders Begränsningar och Beroenden

Sammanfattning:

På grund av lagstiftning men även för att få villiga deltagare i studier behöver publicerade data något slags integritetsskydd.
Integritetsskydd kräver alltid en viss reducering av användbarheten av data och hur mycket varier mellan metoder.
Syntetisk data generation är ett integritetsskyddande alternativ som försöker skydda deltagare genom att generera nya
uppgifter som inte korresponderar till någon riktig individ/organisation men som preserverar
samma relationer och information som i original data.
För att en metod ska få vid spridning behöver den visa sig användbar ty, även om den är integritetsskyddande så kommer den
aldrig att användas om den inte är användbar för forskning.
Vi undersökte fyra olika metoder för syntetisk data generation:
Parametriska metoder, "Decision Trees", "Saturated Model with Parametric" samt "Saturated Model with Decision Trees"
och vilken effekt olika data har på dessa metoder från ett användbarhetsperspektiv samt restriktioner på datamängds
publicering och tidsbegränsningar.
Vi fann att det krävs att man publicerar ett stort antal syntetiska dataset, ungefär 10 eller fler, för att uppnå
god användbarhet och att desto fler dataset man publicerar desto stabilare är slutledningar.
Vi fann att använda så många variabler som möjligt i imputeringen av en variabel är det bästa för att generera syntetiskdata
för generell användning men att vara selektiv i vilka variabler som används i imputeringen kan vara bättre för specifika slutledningar
som matchar de preserverade relationerna.
Att vara selektiv hjälper också med att hålla nere tidskomplexiteten av att generera syntetisk data.
Jämfört med k-anonymity fann vi att resultaten berodde mycket på hur många variabler vi inkluderade som quasi-identifiers
men likaså var resultatet att genererad syntetisk data hade lika bra eller bättre exakthet som k-anonymity.
Vi fann att "Saturated Model with Decision Trees" är den bästa metoden tack vare dess höga användbarhet med stabil
genereringstid oberoende av dataset. "Decision Trees" var näst bäst med liknande resultat som föregående
men med lite sämre resultat med kategoriska variabler.
Tredje bäst var "Saturated Model with Parametric" med bra användbarhet ofta men inte med dataset som hade få
kategoriska variabler samt ibland en lång genereringstid.
Parametrisk var den sämsta med dålig användbarhet med all dataset samt en instabil genereringstid som här med kunde
vara väldigt lång.