bild
Skolan för
elektroteknik
och datavetenskap

Laboration 3 - Ordträd

Laborationens tema är binära sökträd.
  • Första uppgiften är att bygga upp ett sökträd från en fil med svenska ord. Alla dubbletter ska skrivas ut.
  • Andra uppgiften är att kolla orden i en engelsk text mot det svenska sökträdet. Finns det några skenbart svenska ord ska dom skrivas ut, men bara den första förekomsten av varje svenskt ord. (För att veta vilka ord man redan hittat sparar man förstås dom i ett extra sökträd.)

Skriv en klass för binära sökträd

Innan du tar itu med uppgifterna ovan måste du implementera ett binärt sökträd.

Tänk dig först ett abstrakt binärt sökträd. Eftersom man med Python kan jämföra ord (bokstavsordning) så går det bra att lagra ord i sökträdet, t ex så här:

   svenska = Bintree()              # Skapa ett trädobjekt
   svenska.put("gurka")		    # Sortera in "gurka" i trädet	
   - - -
   if svenska.exists("gurka"):      # Kolla om "gurka" finns i trädet
      - - -
   svenska.write()                  # Skriver alla ord i bokstavsordning
Klassen Bintree ska alltså ha tre metoder:
  • put(x) som sorterar in x i trädet
  • exists(x) som kollar om x finns i trädet
  • write() som skriver ut trädet
Men i filen bintreeFile.py ska du dessutom definiera tre hjälpfunktioner. När trädobjektets put("gurka") anropas skickar trädet sin rotpekare och det nya ordet till en rekursiv funktion putta som ser till att en ny nod skapas på rätt ställe. Analogt gör de övriga anropen, alltså så här.

class Bintree:
    def __init__(self):
        self.root=None

    def put(self,newvalue):
        self.root=putta(self.root,newvalue)

    def exists(self,value):
        return finns(self.root,value)

    def write(self):
        skriv(self.root)
        print


Här är klassen slut men sedan kommer definitionerna av funktionerna putta, finns och skriv. Trädet ska bara lagra en upplaga av varje objekt som läggs in.

Det finns förstås också en class Node i bintreefilen som innehåller ett värde och två pekare: left och right.

Första uppgiften

UTF-8 (Ubuntu/Mac) ISO8859-1 (PC)
word3_UTF8.txt word3_ISO8859.txt

I lab3a.py ska du läsa in ett ord i taget från filen word3 (ladda ner rätt version till höger) och lägga in det ditt binära sökträd. Ord som förekommer flera gånger (dubbletter) ska skrivas ut.

from bintreeFile import Bintree
svenskfil = open("word3.txt","r")    # Öppnar filen för läsning (r)
for rad in svenskfil:
    ord = rad.strip()                # Ett trebokstavsord per rad
    if svenska.exists(ord):
        print ord, 
    else:
        svenska.put(ord)             # in i sökträdet
print


Om du gjort rätt kommer dom dubblettord som spottas ut att bilda ett viktigt budskap.

Två binära sökträd med ordlistor

När du nu har ett sökträd med alla svenska trebokstavsord kan du blixtsnabbt kolla om ett givet ord finns med. Du ska nu läsa filen engelska.txt ord för ord och putta in orden i ett annat sökträd.
utf-8 (Ubuntu/Mac) iso8859-1 (Windows)Failsafe version
engelskaUTF8.txt engelskaISO8859.txt engelska.txt
Nu vill du inte ha dubbletterna utskrivna, så kolla först if engelska.exists(...). Om ordet redan fanns gör du ingenting, men om det är nytt ska du också kolla om det råkar finnas som svenskt ord. I så fall ska det skrivas ut på skärmen.

Om du har gjort rätt kommer dom utskrivna orden att bilda ännu ett hemligt budskap!

När allt fungerar som det ska bör du ta en extra titt på koden. Är den kommenterad och begriplig?
Den här labben ska redovisas tillsammans med labb 2 och 4.



Frivilliga extrauppgifter

Söt tös: Undersök vilka trebokstavsord som blir andra ord baklänges. Varje ordpar ska bara skrivas ut en gång och symmetriska ord inte alls.

Alpin pinal: Undersök vilka fembokstavsord som blir ett annat ord när dom två första bokstäverna flyttas sist. Du kan använda ordlistan word5.txt.






























Genialt programmerat av ............................. anser........................ den ..............

Sidansvarig: Linda Kann <lk@csc.kth.se>
Uppdaterad 2012-09-19