Mauritz Zachrisson

Utökning av Jaro-Winkler för att hitta duplicerade finansiella transaktioner

Sammanfattning. I detta examensarbete föreslås en algoritm för att hitta duplikat bland korta textsträngar, i form av en utökning av Jaro-Winkler-algoritmen för att mäta textavstånd. Med hjälp av termfrekvens filtreras överflödiga ord ut, vilket injicerar tidigare kunskap om språkstruktur. Algoritmen tränas och evalueras på två små dataset bestående av betalningstransaktioner och presterar bättre än jämförda algoritmer för ett av de två, i form av area under kurvorna för Precision Recall och Receiver Operating Characteristic. Algoritmen presterar bättre än merparten av de jämförda alternativen när det kommer till F0.5-värde.