Klassificering av svårigheten hos söksträngar med hjälp av längden på söksessioner

Samuel Hertzberg

Sammanfattning

För att data ska vara användbar behöver den vara indexerad och tillgänglig. För att data ska vara användbar behöver den vara sökbar. För att ständigt förbättra söklösningar är det i en söklösnings tillhandahållares intresse att ha insikt i, och förståelse för sina användare. En sådan insikt kan komma i formen av analysen av en söksträngs svårighet. En söksträngs svårighet är en kvantifiering av hur väl en söksträng kommer att prestera i en sökkontext. Till exempel, om en söksträng är mycket tvetydig kan den ha en hög svårighet och då också prestera dåligt i sökfunktionaliteten. Många metoder existerar för att bedöma en söksträngs svårighet och resultatet kan vara mycket värdefullt. I det här arbetet så tas en ny metod, baserad i maskininlärning och söksessioner, fram för att estimera söksträngars svårighet hos ett dataset från Scania, en stor svensk lastbilstillverkare. Med hjälp av sökloggar från Scania så grupperades söksessioner som sedan användes som träningsdata i två maskininlärningsmodeller, en stödvektorklassificerare (SVK) och en stochastic gradient descent classifier (SGDC). Dessa modeller användes sedan för att förutspå huruvida en söksträng är avslutande för en söksession och då har låg svårighet då söksträngen ledde till att användaren hittade det den letade efter. Om söksträngen inte är avslutande för söksessionen så innebär det en högre svårighet då söksträngen inte ledde till att användaren hittade det den letade efter. Dessa två modeller jämfördes med en Naiv bayesiansk klassificerare som baslinje på fyra olika varianter av datasetet. Efter experimenten blev det tydligt att processeringen av datan spelade en stor roll i den slutgiltiga precisionen hos modellerna. Den bäst presterande modellen var en SVK tränad på minimalt processad data med artificiellt reducerat brus och hade en balanserad noggrannhet på 75\%. Vidare så upptäcktes att SVKn presterade bättre än de andra två modellerna i alla varianter av datan när balanserad noggrannhet evaluerades. Dock när positivt/negativt prediktivt värde evaluerades så presterade alla modeller nästan likvärdigt. Den balanserade noggrannheten hos modellerna var något lägre än förväntat, detta är teoretiserat att i huvudsak bero på datasetets brus. Mer forskning kring denna teknik är att rekommendera för att bedöma metodens förmåga i andra dataset.