Jonas Wedin - Imitera störningar i video -- en jämförelse mellan fysikbaserade och djupinlärningsmodeller för att simulera störningar

Sammanfattning:

Algoritmer som används för att spåra objekt i video, som följer Newtoniska rörelser, kan ofta bli påverkade av störningar.

Vissa av dessa störningar kan vara svåra och dyra att spela in, så att kunna utöka eller generera ny data som representerar en viss typ av störning kan vara mycket användbart. Forskning inom oövervakad träning av djupinlärningsmodeller som använder sig av Recurrent Neural Networks (RNNs) och Long Short-Term Memory (LSTMs) kombinerat med konvolutioner (ConvLSTM) ger hopp om att en djupinlärningsmodell som är tränad på en viss typ av data, ska kunna återskapa den utan att kopiera orginal datan.

Den här uppsatsen använder sig utav två dataset som representerar störningar (regn och flygande insekter) och försöker att imitera dessa. För att kunna jämföra så skapas två modeller för varje störning. En skapas genom att definera en fysisk modell för störningen som sedan används för att generera data, och den andra är en djupinlärninsmodell som tränas på riktig data.

Sekvenser genererade från dessa modeller är sedan utvärderade med olika tekniker. Etablerade tekniker så som Frechet Inception Distance (FID) används och andra tas fram för att visa statisktiska skillnader mellan modellerna.

Resultatet visar att det är svårt att mäta så gles data med existerande tekniker. FID-mätningen för insekts-modellerna jämfört med ett valideringsset är nästan lika (103 mot 107). Detta stämmer inte överens med en visuell inspektion utav datan, där djupinlärningsmodellen presterar sämre. Liknande resultat kan ses för regn datat, vilket gör FID-mätningarna svåra att tolka eftersom det inte stämmer med vad datat visar.

Nya mättekniker visar att dom fysiska modellerna presterar bättre än djupinlärninsmodellerna, men användbarheten hos dom teknikerna ifrågasätts.

Slutsatsen är att dom fysiska modellerna presterar bättre än djupinlärningsmodellerna men att dom inte generaliserar lika väl och tar en stor ansträngning att producera.