Nada

Svensk informationssökning med språkteknik och matrisberäkningar - populär beskrivning

Språkteknik gör så vi kan leva bekvämt med tekniken. Med hjälp av kunskap om naturliga språk kan forskarna utveckla datorprogram som hjälper oss alla att skriva och korrigera text, som förstår såväl talad som skriven text så väl att de kan välja ut och rangordna information, översätta mellan olika språk och generera tal och text.

Området informationssökning har utvecklats med rasande fart i takt med att Internet har blivit var mans egendom i den rikare delen av världen. Tekniken för att hitta information håller knappt jämna steg med behovet. Sökmotorer som är informationssökningsverktyg på Internet har utvecklats och förbättrats. En sökmotor är som en stor telefonkatalog där man kan slå upp namn, ord eller begrepp och få adressen dit man ska gå på Internet för att hitta vad man sker. Sökmotorer kan söka på allt men användaren vet inte alltid vad hon eller han ska leta efter.

Vid sökning är det ofta mera intressant att få in ett dokument som är pålitligt. Om man antar att majoriteten har rätt, så blir det ett dokument som många pekar på. Om man tänker sig att följa alla pekare tills ett jämviktstillstånd uppstår, ges ett dokuments vikt av hur ofta det pekas på i denna jämvikt. Nybörjaren vill gärna se de tunga dokumenten först. En orsak till sökmotorn Googles framgång är att man använder sådana vikter.

De nya sökteknikerna börjar ta hänsyn till de olika språkens uppbyggnad i och med att man kan söka på specifika språk eller specifika filformat som tex PDF- eller Wordfiler. En teknik som kommer är textextraktion, det vill säga att lyfta ut de delar av en text som kan vara intressanta för en användare och presenterar dessa. Sökmotorn Google gör delvis så. En förlängning av textextraktion är textsammanfattning, det vill säga att en text sammanfattas automatiskt och användaren får en skräddarsydd beskrivning.

Ett annat användningsområde som börjar komma är textgruppering eller strukturering. När man söker på något så föreslår sökmotorn olika kategorier som det man söker efter kan passas in i. Se exempelvis sökmotorn Vivisimo. Vidare kan en sökmotor som Google föreslå närliggande begrepp eller alternativa stavningar för olika ord.

Språkteknik är ofta språkspecifikt. Till exempel så kan normalt inte engelska språkteknikprogram översättas till svenska utan omfattande modifieringar och utökningar. Detta beror på att det engelska språket i flera avseenden är enklare för en dator att hantera än det svenska språket.

Vi har i flera års tid byggt upp program som kan hantera svenska ord och meningar på olika sätt, till exempel hitta felstavningar och grammatiska fel, märka ord med ordklass och böjningsform, dela upp ord i sammansättningsled etc. Dessa program vill vi i vårt projekt "Svensk informationssökning med språkteknologi och matrisberäkningar" använda och vidareutveckla för att få svensk informationssökning bättre och effektivare.

Vi kommer att använda numeriska matrisberäkningar som ett led i arbetet med att hitta synonymer och relaterade begrepp i texter samt att gruppera texter efter innehåll.

När vi utvärderar våra informationssökningsmetoder kommer vi att använda tre olika textsamlingar: en stor samling nyhetstexter (för sökning bland nyhetsartiklar är ett vanligt exempel på informationssökning), CLEF-textsamlingen som är en standardiserad europeisk textsamling med nyhetstexter på många europeiska språk, och medicinska textsamlingar som finns på Medicinsk Epidemiologi på Karolinska institutet.

Vår förhoppning är att vår forskning ska leda fram till metoder som kan implementeras i sökmotorer och textgrupperingsprogram och därigenom göra att svenska språket hanteras minst lika bra som större språk av dessa system.

Ännu är informationssökningssystemen trots allt ganska outvecklade. Med ytterligare forskning inom området kanske vi kan få svar på följande frågor: Kommer man att få sökmotorer som man kan konversera med för att hitta information? Kommer det att finnas talande sökmotorer som kan vägleda användaren på webben via en telefon eller något annat enkelt gränssnitt?

Projektet finansieras av Vetenskapsrådet och KTH.

^ Upp till projektets hemsida.


Sidansvarig: Viggo Kann <viggo@nada.kth.se>
Senast ändrad 8 februari 2003
Tekniskt stöd: <webmaster@nada.kth.se>