TILDA, ÖVNING 4

Hashning, sortering, heap

1 SÖKTIDER

I labbarna används en ordfil med cirka 2000 ord. Hur många
jämförelser går det åt för att söka efter ordet värst i
* en ordnad vektor
* en kö
* ett binärträd
* en hashtabell

Och hur många behövs det för att konstatera att väscht är felstavat?

2 WEBBTOPPEN (eller Tildatenta 21 mars 1998, uppgift 7)

Vissa webbsidor räknar hur många besökare dom har eftersom välbesökta
webbsidor ger prestige. Du får i uppdrag att skapa 
webbtoppen, ett program som för varje dag läser av räknarna för
tiotusen webbsidor och sedan publicerar dagens tio i topp.
Din första tanke är att spara talen i en vektor med längd tiotusen,
leta fram och skriva ut segraren, nollställa segraren och göra detta
tio gånger. Hur många jämförelser skulle krävas för denna
algoritm? 

Din andra tanke är att spara talen i en trappa (heap) och sedan ta
ut och skriva ut tio tal ur trappan. Hur många jämförelser kan
det då bli frågan om?

Din tredje tanke är att det borde räcka med en trappa med plats för
tio tal. Hur skulle man då göra och hur många jämförelser skulle krävas?

3 LÖNAR SEJ SORTERING

En miljon dumbolotter säljs var månad. För varje lott sparas
lottnumret och köparen i en post. En array med en miljon poster finns
alltså i datorn vid dragningen, då tusen vinstnummer slumpas fram, ett
efter ett.

För varje nummer måste hela arrayen letas igenom, eftersom
den är osorterad. Hur många jämförelser får man räkna med totalt?
Lönar det sej att först sortera arrayen, en gång för alla?

4 BILLIG STANDARD SELECTION

Tilda och Totte skrev var sin sorteringsprocedur. Tilda valde en
utsökt merge sort medan Totte tog en standard selection sort.  När dom
provkörde med tusen poster gick ändå Tottes program lika fort,
eftersom han har superdator. Men med tiotusen poster vann Tilda. Med
hur mycket?

5 HOPPFULL SORTERING

Höjdhoppsfederationens databas över världens alla
höjdhoppstävlingsresultat består av poster med bland annat fälten
datum, plats, höjd (cm), hoppare och rivit/klarat. På skivminnet
ligger posterna i datumordning, men man vill sortera om dom i
resultatordning, nämligen klarade hopp före rivna och höga hopp före
låga.

Vilken sorteringsmetod är bäst? Motivera utförligt.


6 TJUGONDAG KNUT KASTAS JULEN UT (TILDA-tenta 010116)

För att kontrollera sanningen i detta talesätt har man i en fil 
samlat tre miljoner datum för svenska julgranars utkastning. 
Man vill veta mediandatum, alltså det datum då hälften av granarna 
slängts ut, ut, ut och hälften ännu står gröna och granna i stugan. 

Rangordna följande sex föreslagna metoder efter deras effektivitet. 
Binärsöning, hashning, insättningssortering, distributionsräkning, 
djupet-först-sökning, trappsortering (heap sort).


7 SKATTEREGISTRET

Riksskatteverkets databas med nio miljoner svenskar 
finns sorterad på efternamn. Man vill sortera om
den på personnummer. Hur många jämförelser krävs
med quicksort? Hur många med den bästa metoden?

8 HÅLL REDA PÅ MEDIA (Tildatenta 030308)

Under gulfkriget var det väldigt svårt för armestaben att hålla reda på 
alla TV-bolag som for omkring och rapporterade i öknen. För att hålla 
reda på dem användes en hashvektor. Koden fungerade inte som avsett 
och man har nu gett i uppdrag åt en f.d. tildastudent att titta 
på en misstänkt del av koden:

from string import find

p=100;
hashvektor = [0]*p
alfabet="abcdefghijklmnopqrstuvxyz"

def put(tvbolagsnamn, tvbolag):
    hashcode = 0
    for i in range(len(tvbolagsnamn)):
        alfanum = find(alfabet, tvbolagsnamn[i])+1
        hashcode += alfanum
    hashcode = hashcode % p
    hashvektor[hashcode] = tvbolag

Vad är det för fel på koden? Beskriv hur man kan förbättra den. 
Namnen på TV-bolagen kan antas bestå av högst tre bokstäver. 
Det kommer inte att förekomma mer än 75 TV-bolag.


****************************************************************
LÖSNINGAR

1 SÖKTIDER

log2(2000) ~ 11

                värst   väscht
ordnad vektor     10       11
kö              1000     2000
binärträd         10+      11+   (mer om obalanserat)     
hashtabell         1+       1+

2 WEBBTOPPEN

Tio genomletningar av vektorn tar 100 000 jämförelser. Inmatning i 
trappan tar cirka N log N, alltså 130 000 jämförelser och utplockning
cirka 20 log N, alltså ytterligare 260 jämförelser. Det smarta är
att ha en tioplatsers min-heap! Överst ligger då det tionde i ordningen
av alla tal man sett och det är ju det man ska jämföra varje tal med för 
att se om det ska in bland dom tio bästa. Med normal tur blir det inte
så ofta man ska byta ut tionde talet, så antalet jämförelser blir bara
drygt tiotusen.

3 LöNAR SEJ SORTERING?  

Ja, i osorterad vektor krävs cirka en halv miljon jämförelser för 
varje sökning, dvs totalt en halv miljard
(0.5*1000000 sökningar * 1000 vinstnummer).
Sortering med quicksort kräver cirka 1.5 N log N jämförelser, dvs
cirka 30 miljoner
(1.5*1000000*log2(1000000))
Sedan tar varje binärsökning (O(logN)) bara tjugo jämförelser, dvs 
tjugotusen totalt (20 jämförelse/vinstnummer * 1000 vinstnummer).

4 BILLIG STANDARD SELECTION

k = en konstant

Selection sort
O(N2); t = k * N2
	
N = 10 000  t2 = k (10 000)2
            ----------------
N =  1 000  t1 = k (1 000)2

	    t2
	    -- = 102
	    t1

Tottes 10 000-posters sortering tar alltså 100 gånger så lång tid 
som 1 000-posters sorteringen.

Merge sort
O(NlogN); t = k * N log2N

N = 10 000  t2 = k (10 000) log2(10 000)
            ---------------------------
N =  1 000  t1 = k (1 000) log2(1 000)

	    t2      13.3
	    -- ~ 10 ---- ~ 13
	    t1       10

Obs! 2^(13.3) ~ 10 000 så att log2(10 000) ~ 13.3.
2^(10) ~ 1 000 så att log2(1 000) ~ 10.

Tildas 10 000-posters sortering tar alltså 13 gånger så lång tid 
som 1 000-posters sorteringen.

Tildas 10 000-posters sortering är alltså 100/13 = 8 gånger 
så snabb som Tottes trots den långsammare datorn! 


5 HOPPFULL SORTERING

De hopp som finns är grovt sett 100-300 cm, dvs det finns bara 
några hundra olika höjdvärden (distributioner) i hoppfilen. 
Antalet registrerade hopp är väldigt många fler än antalet höjdvärden
(distributioner) och då är distributionsräkning bästa sorteringsalgoritmen. 
Tar vi hänsyn till rivit/klarat får vi dubbelt så många distributioner.

Algoritm: Läs igenom filen två gånger, första gången för att räkna 
hur många hopp det finns av varje rivit/klarat plus höjd. Sedan avsätter 
man lagom stort segment av vektorn för varje rivit/klarat plus höjd 
och vid andra genomläsningen av filen kan varje hopp sättas in 
på rätt ställe i vektorn.

6 TJUGONDAG KNUT KASTAS JULEN UT (TILDA-tenta 010116)

Distributionsräkning är bäst (~N) eftersom det bara finns 365 olika 
datum. Trappsortering är näst bäst (~NlogN) och man kan avbryta när 
hälften sorterats. Insättning fungerar också (~N^2). Hashning är 
nästan oanvändbart; man bör i så fall vara säker på att 
hashfunktionen inte kan ge krockar. Binärsökning och 
djupet-först-sökning är det bara att glömma.


7 SKATTEREGISTRET

Eftersom N=2^23 tar quicksort 1.5*9000000*23= 300 miljoner jämförelser.
Radixsortering (gå igenom alla, dela upp i tio buntar efter sista siffran,
lägg samman, gör om med näst sista siffran etc) tar 10*9000000= 90 miljoner.
Man kan faktiskt strunta i sista siffran eftersom den är checksiffra. Det
finns inte två pnr som bara skiljer sej i den siffran.


8 HÅLL REDA PÅ MEDIA