Gustaf Gunér

Kvittoscanning med hjälp av djupinlärning

Sammanfattning

Anställda på företag gör ofta utlägg för inköp. Dessa inköp måste rapporteras manuellt, antingen av varje enskild anställd eller genom att skicka kvittona till företagets revisor och låta denna person göra det. I båda fallen transkriberas delar av kvitton manuellt. Denna process är tidskrävande och utgör en risk för att den mänskliga faktorn orsakar fel i avskrivningen, vilket kan leda till tvetydigheter i företagets finansiella redovisningar. En helautomatisk kvittoscanner, som från ett foto av ett kvitto kan extrahera ut metadata (t.ex. totalpris, moms och individuella objektnamn) skulle lösa många av dessa problem. Utöver att lösningen skulle göra rapporteringsprocessen mer effektiv, vilket skulle minska kostnader och spara tid, skulle även korrektheten i datan kunna förbättras. I denna rapport utvärderas möjligheterna att använda djupinlärning som metod för att scanna kvitton, i jämförelse med en heuristisk metod baserad på datorseende. Båda metoderna detekterar kvittot i bilden, förbehandlar originalfotot baserat på kvittots platsinformation och extraherar sedan texten med hjälp av optisk teckenigenkänning. Metoderna utvärderades baserat på noggrannheten i de förutspådda platserna av kvittona och noggrannheten i de extraherade texterna. Resultaten visar att djupinlärningsmetoden uppnådde avsevärt bättre resultat än den heuristiska metoden, i båda avseendena. I den generiska testuppsättningen, som inkluderade samtliga testinstanser, uppnådde djupinlärningsmetoden 31.1 procentenheter högre genomsnittlig Intersection over Union (IoU), 23.4 procentenheter lägre genomsnittlig Character Error Rate (CER) och 17.5 procentenheter lägre genomsnittlig Word Error Rate (WER).