Anna Karlhede

Hantering av obalanserad data i Random Forest för att förutspå övergångar från gratis till betalande användning av en SaaS-prenumerationstjänst

Sammanfattning

I denna masteruppsats undersöker vi olika metoder för att ta itu med mycket obalanserad data när vi använder Random Forest för klassificering. Datan kommer från en SaaS-prenumerationsapplikation, nämligen Mentimeter, som låter användare skapa interaktiva presentationer. Klassificeringsproblemet är att förutsäga vilka användare som kommer att bli betalande kunder inom en viss tid. Förhållandet mellan de två klasserna, kommer och kommer inte att uppgradera, är 400-till-1. Åtgärderna som tagits mot den obalanserade karaktären av datan är balanserade klassvikter, slumpmässig undersampling och SMOTE översampling. Eftersom den viktigaste faktorn för en maskininlärningsmodell att lyckas är funktionerna den får som input, så är en stor del av arbetet dedikerat till detta. Som en del av detta använder vi Pearsons korrelationskoefficient och Permutation Importance (PI) för att reducera problemets dimensioner. Vi använder också PI för att beräkna predikationskraften för de olika funktionera för att skapa olika uppsättningar av funktioner - de top 5 och top 10 viktigaste, samt alla - i ett ytterligare försök att förbättra modellernas prestationer. Utan att några åtgärder vidtas ̈är noggrannhet (accuracy) och specificitet (specificity) nära 1, och återkallelsen (recall) är nära 0.

Vi kan dra slutsatsen att vi med mycket låga beräkningskostnader - balanserade klassvikter och slumpmässig undersampling - kan öka återkallelsen väsentligt. Detta kommer dock till en kostnad av minskad specificitet och noggrannhet. Balanserade klassvikter och SMOTE översampling har mycket mindre påverkan på resultatet. Inga av våra försök har lyckats öka precisionen, som är mycket låg. Vi kan notera att av alla insamlade funktioner är de viktigaste, enligt våra PI-beräkningar, de som representerar Mentimeters kärnprodukt - bilderna och frågorna som utgör presentationerna. För de viktade Random Forest modellerna och för de som använde SMOTE översampling såg vi en stor skillnad i prestation beroende på vilken uppsättning av funktioner som användes. För de Random Forest modeller som presterade bäst för varje prestationsmått kunde vi enbart se en begränsad effekt av att använda de viktigaste av funktionerna.