Niklas Lindqvist

Evaluering av multipla kameravyer för dynamic images vid klassificering av mänskliga handlingar vid kylskåp

Sammanfattnig

Human Action Recognition (HAR) blir allt vanligare i vårt samhälle och kan hittas i b.la. självkörande bilar, kammeraövervakningssystem och kassörsfria butiker som till exempel AmazonGo. Att klassificera och förutsäga mänskliga handlingar är svårt, främst på grund av att det krävs videodata. Videodata innehåller brus i form av överflödig information av omgivningen och även ett tidsberoende perspektiv. En metod för att övervinna dessa problem är att använda en tvåströmmad Convolutional Neural Network arkitektur som bestämmer den rumsliga aspekten av handlingen med hjälp av en enda bild och den tidsberoende aspekten av handlingen med hjälp av Optical Flows (OF). Ett problem med OF är det begränsade antalet bilder per sekund (FPS) som kan beräknas. För att överkomma detta problem kan istället ett Dynamic Images (DI) nätverk användas, som utnyttjar Approximate Rank Pooling för att snabbare skapa bildrepresentationer av rörelsen från videodatan. Med ett ökat antal FPS vid användning av DI-nätverk möjliggörs användandet av flera vyer i realtid vid HAR.

I denna studie skapas en databas av videodata insamlat från flera kameravyer vid ett kylskåp med försäljningsmöjligheter. Ett DI-nätverk används tillsammans med olika fusionsmetoder för att undersöka effekten av att använda ett flertal kameravyer i jämförelse med en enstaka kameravy vid HAR. Slutsatsen visar att användning av flera kameravyer för ett DI-nätverk kan med ett specifikt val av fusionsmetod, ens så kallad Support Vector Classifier fusion, ge statistiska bevis på en ökad träffsäkerhet vid klassificerings av mänskliga handlingar jämfört med fristående DI-nätverk som använder endast en kameravy.