Anomaly Detection på flera språk

Mastafa Foufa

Sammanfattning

Vi låt oss få presentera MAD (Multilingual Anomaly Detector), en verktygssats för att upptäcka avvikelser som är okänsliga för användning av olika språk. Oövervakad anomalidetektion på högdimensionell textdata är av stor relevans både för maskininlärningsforskning och industriella tillämpningar. Även om tidigare tillvägagångssätt fokuserar på textdata för att upptäcka avvikelser, lider dessa främst av att anomalidetektorns känslighet baserar sig på de språk som den har tränats på och därför finns en oförmåga att generalisera till olika språk. Vi finner att kvaliteten på det semantiska utrymmet som representerar textdata är av stor betydelse för nedströmsapplikationer. Vi jämför först olika sätt att representera textdata på flera språk. Sedan fokuserar vi på att upptäcka avvikelser genom att använda djupa inlärningstekniker baserade på autoencoders. I ett verkligt scenario kan man ofta ha tillgång till några anomala observationer och oövervakade tekniker visar ganska dålig prestanda. Därför fokuserar vi till slut på ”few-shot” lärteknik som bara kräver ett fåtal anomala observationer genom att introducera övervakad MAD. Den sistnämnda struktur, baserad på Siamese Networks, överträffar konsekvent oövervakad anomali-upptäckningsteknik och visar mer robusthet i inställningar för avkänning av avvikelser jämfört med starka flerspråkiga modeller, såsom flerspråkig BERT.