bild
Skolan för
elektroteknik
och datavetenskap

Språkteknologi

Automatisk textsammanfattning

Martin Hassel

Automatisk textsammanfattning är tekniken där en dator sammanfattar en text. En text matas in i datorn och ut kommer en sammanfattad text. Vi diskuterar olika metoder och system och användbara tillämpningar inom området samt hur man utvärderar dessa.

Kursmaterial

Kapitel 17.4 i kursboken.
Hassel, M. (2004). Summaries and the process of summarization
Föregående års föreläsningsbilder (PDF)

Bredvidläsning

Automatisk textbehandling (PDF), Hercules Dalianis
Robust pronoun resolution with limited knowledge, Ruslan Mitkov 1998
Cut and Paste Based Text Summarization (PDF), Hongyan Jing; Kathleen R. McKeown, NAACL-00
Sentence Reduction for Automatic Text Summarization (PDF), Hongyan Jing, NAACL-00

Exempel på tentafråga

Fråga

a) Ge exempel på minst tre bedömningsgrunder vid rankning av extrakt. (2p)
b) Vad är 'Named-Entity-Tagging' och hur kan det användas för textsammanfattning (2p)
c) Beskriv 'Multi-Document-Summarization' och ge minst ett exempel på ett användningsområde för detta. (2p)

Svar

a) 1. Formattering (fetstil, kursiv, etc.)
    2. Termfrekvens (antal förekomster i texten)
    3. Position i texten (rubrik, ingress, etc.)
b) NE-taggning är att med heuristiska och/eller lexikonbaserade metoder hitta och märka upp namn (på personer, länder, företag, produkter, etc men även tidsangivelser). Detta kan användas vid textsammanfattning som en bedömningsgrund vid rankning (se ovan), som stöd till pronomenresolution, mm.
c) Multi-Document-Summarization är när man sammanfattar flera texter till en sammanfattning, dvs man producerar en sammanställande sammanfattning över en hel dokumentmängd. Ett tänkbart användningsområde är nyhetsbevakning som sammanställer flera nyhetskällor, ett annat är sammanfattning av trådar i en (skriven) konversation, t.ex. e-post.
Copyright © Sidansvarig: Johan Boye <jboye@kth.se>
Uppdaterad 2011-09-21