Walter Nordström and Jacob Håkansson

Att Hitta Kluster av Liknande Artister - Analys av DBSCAN och K-means Klustring

Sammanfattning

Vi har tillämpat k-means klustring och DBSCAN på problemet att hitta grupper av liknande artister baserat på ett stort antal artister och deras genrer. Till våra experiment har vi använt data från Million Song Dataset, som är en fritt tillgänglig samling av en miljon populära sångers metadata, som skapats speciellt för forskning. Vi körde algoritmerna med varierande värden på deras parametrar och studerade effekterna. De resulterande klustren analyserades och för k-means fann vi tre olika typer av kluster. Även om resultaten från k-means innehöll ganska mycket brus, så skulle många av klustren kunna användas för att få en viss inblick i likheten mellan artister. Detta implicerar att man kan använda avstånd som en representation för likheter mellan artister. Resultaten från DBSCAN visade sig inte vara lika användbara. Detta berodde på att dess klustringsmetod är densitetsbaserad och densiteten hos klustren i indata skilde sig alltför mycket för att DBSCAN skulle klara av hitta dem. Vi fann att fler egenskaper i indata, såsom genre per spår, skulle vara önskvärt och skulle sannolikt förbättra resultaten från algoritmerna. Ytterligare studier av andra klustringsalgoritmer som tillämpas på samma data skulle belysa den faktiska effekten av de algoritmer studerade här.