Fredrik Cedervall & David Törnquist

Informationsteknologiska sidrankningsalgoritmer

Sammanfattning

Sidrankningsalgoritmer används i sökmotorerna på Internet för att inbördes väga webbsidorna mot varandra och rangordna sökresultaten efter dessa vikter. Att modellerna dessa baseras på representerar verkligt beteende och vad som intuitivt implicerar relevans i sökresultatet är essentiellt för att finna rätt information i den enorma datamängd som Internet utgör.

Google har till stor del sidrankningsalgoritmen PageRank att tacka för sina framgångar. I dess kölvatten har bland annat SALSA och HITS vuxit fram som alternativa algoritmer, vars grund finns i de ifrågasatta svagheterna i PageRank.

Den enorma storleken och snabba expansionen av Internet har medfört att sidrankningsalgoritmer transformerats till ett beräkningsproblem. Denna uppsats förklarar, undersöker och resonerar kring praktiska och prestandamässiga skillnader mellan olika metoder att beräkna PageRank.

Information Technological Page Ranking Algorithms

Abstract

Site ranking algorithms are used in search engines on the Internet to inter-weigh the web sites toward each other and order the search results according to these weights. That the models these are based on represent real behavior and what is intuitively implicating relevance in the search results is essential to find the right information in the enormous data volume the Internet constitute.

Google has in large part the site ranking algorithm PageRank to thank for its success. In its aftermath, SALSA and HITS have, among others, evolved as alternative algorithms, with their base in the questioned weaknesses of PageRank.

The vast extent and fast expansion of the Internet has caused site ranking algorithms to transform into computational issues. This thesis explains, investigates and reasons around practical and performance-wise differences between the different methods of calculating PageRank.