Semantisk bildsegmentering på bilder av kläder med djupa neurala nätverk

Helena Alinder

Sammanfattning

Semantisk bildsegmentering är ett ämne inom maskininlärning och dataanalys där målet är att koppla ihop varje pixel i en bild med en klass. En lyckad segmentering ger varje pixel som tillhör ett objekt samma korrekta klass och den förutspådda segmentering kan mätas med ett mått som kallas mean Intersection over Union (mIoU).

I en säljprocess för second-hand kläder ingår det att kläderna placeras på en docka och fotograferas och efterbehandlas. Algoritmen som sköter efterbehandlingen försöker ta bort stolpen som dockan är placerad på och klippa ut dockan för att skapa en klar bakgrund. Algoritmen använder sig av traditional bildanalys och behöver speciella ljus- och placeringinställningar, annars har algoritmen svårt att göra bra segmenteringar. Den här studien undersöker hur semantisk bildsegmentering kan göras med hjälp av djupa neurala nätverk för att ta bort stolpen och klippa ut dockan, och den undersöker även om de neurala nätverken får bättre resultat än den traditionella algoritmen på bilder med dåliga ljusinställningar.

Två djupa neurala nätverk undersöktes: DeepLabv3+ och Gated-Shape CNN. Nätverkens prestation mättes med deras mIoU och de utvärderas på ett dataset bestående av vanliga bilder på kläder och ett bestående av augmenterade bilder på kläder - bilder som den traditionella algoritmen segmenterar dåligt.

Slutsatsen för studien är att DeepLabv3+ presterar bättre än Gated-Shape CNN på vanliga bilder på kläder och får en mIoU på 91.81% och det är en statistisk signifikant skillnad mellan deras resultat. DeepLabv3+ får även bättre resultat än den traditionella algoritmen när det kommer till att segmentera augmenterade bilder, bilder som den traditionella algoritmen hade problem med att segmentera, och det är en statistisk signifikant skillnad mellan deras resultat. Det finns ingen statistisk signifikant skillnad mellan DeepLav3+ och GSCNN resultat eller GSCNN och den traditionella algoritmens resultat när det gäller segmentering av augmenterade bilder.