SpråkteknologiAutomatisk textsammanfattningMartin HasselAutomatisk textsammanfattning är tekniken där en dator sammanfattar en text. En text matas in i datorn och ut kommer en sammanfattad text. Vi diskuterar olika metoder och system och användbara tillämpningar inom området samt hur man utvärderar dessa. KursmaterialKapitel 17.4 i kursboken.Hassel, M. (2004). Summaries and the process of summarization Föregående års föreläsningsbilder (PDF) BredvidläsningAutomatisk textbehandling (PDF), Hercules DalianisRobust pronoun resolution with limited knowledge, Ruslan Mitkov 1998 Cut and Paste Based Text Summarization (PDF), Hongyan Jing; Kathleen R. McKeown, NAACL-00 Sentence Reduction for Automatic Text Summarization (PDF), Hongyan Jing, NAACL-00 Exempel på tentafrågaFrågaa) Ge exempel på minst tre bedömningsgrunder vid rankning av extrakt. (2p)b) Vad är 'Named-Entity-Tagging' och hur kan det användas för textsammanfattning (2p) c) Beskriv 'Multi-Document-Summarization' och ge minst ett exempel på ett användningsområde för detta. (2p) Svara) 1. Formattering (fetstil, kursiv, etc.)2. Termfrekvens (antal förekomster i texten) 3. Position i texten (rubrik, ingress, etc.) b) NE-taggning är att med heuristiska och/eller lexikonbaserade metoder hitta och märka upp namn (på personer, länder, företag, produkter, etc men även tidsangivelser). Detta kan användas vid textsammanfattning som en bedömningsgrund vid rankning (se ovan), som stöd till pronomenresolution, mm. c) Multi-Document-Summarization är när man sammanfattar flera texter till en sammanfattning, dvs man producerar en sammanställande sammanfattning över en hel dokumentmängd. Ett tänkbart användningsområde är nyhetsbevakning som sammanställer flera nyhetskällor, ett annat är sammanfattning av trådar i en (skriven) konversation, t.ex. e-post. |