Konferensen är en bred konferens som täcker det mesta inom området naturligt språkbehandling. På grund av det ökande intresset Internet och för språkkänslig indexering inom IR (Information Retrieval) håller den nu även gradvis på att breddas med heuristiska/statistiska angreppssätt på NLP.
Denna workshop var uppdelad på fem sessioner och två paneldebatter. Sessionerna handlade om val av innehåll (Content Selection), visualisering (Visualization) flerdokumentssammanfattning (Multi-Document Summarization), evaluering (Evaluation) och sammanfattning av/för multimedia (Multimedia Summarization).
Content Selection:
Content Selection handlar om hur man identifierar och extraherar önskat innehåll ur en text. Horacio Saggion och Guy Lapalme har t.ex. genom att undersöka 100 abstract och 100 andra texter från en korpus av tekniska artiklar lyckats identifiera totalt 52 olika typer av information. Bland dessa hittar man bland annat explicit topik, situationen, identifiering av problemet, identifiering av lösningen, inferenser, relevans, fördelar etc. Dessa använder de sedan för att producera indikativa abstract vilket i princip består av ett extrakt, en termlista och en kontext för de viktigaste termerna.
I denna session presenterades det också en metod för att automatiskt identifiera och klassificera diskursmarkörer i kinesiska texter. Denna metod har tagits fram av Samuel W K Chan, Tom B Y Lai, W J Gao och Benjamin K T’sou.
Visualization:
Visualization behandlar som namnet antyder om hur den sammanfattade informationen ska presenteras för användaren. Här visade Rie Kubota Ando, Branimir K Boguraev, Roy J Byrd och Mary S Neff en visualiseringsmetod för flerdokumentssammanfattning. I en uppsättning ramar i en vanlig webbläsare presenteras de olika satserna extraherade ur dokumenten tillsammans med en grafisk representation av hur de övriga dokumenten förhåller sig likhetsmässigt (i en slags tvådimensionell ”semantisk” rymd). En uppsättning nyckelord presenteras också för varje dokument.
Multi-Document
Summarization:
Denna session behandlar metoder för att sammanfatta flera texter till ett och samma extrakt/abstrakt. Här är det många nya frågor som dyker upp som det inte funnits behov för att beakta vid sammanfattning av ett isolerat dokument. Man måste till exempel gruppera dokumenten (likhet/topik), ordna grupperna inbördes (kronologiskt/hierarkiskt), undvika införd redundans (jämföra satser från de olika dokumenten för likhet) etc.
Här hölls det tre seminarier. Dels presenterade Dragomir R Radev, Hongyan Jing och Malgorzata Budzikowska en multi-document summarizer kallad MEAD. Denna använder standard IR-metoder (TF*IDF) for att klustra nyhetsartiklar om samma händelse. Dessa kluster används sedan som indata till MEAD varpå satsextraktion av centrala satser sker.
Fumiyo Fukumoto och Yoshimi Suzuki har istället utvecklat en metod för att identifiera topik- och händelseord. Dessa används sedan för att identifiera nyckelparagrafer i en eller flera texter varpå dessa paragrafer extraheras till en sammanfattning.
Avslutade gjorde Jade Goldstein, Vibhu Mittal, Jaime Carbonell och Mark Kantrowitz med en mycket noggrann genomgång av de mycket specifika problem som uppstår vid multi-document summarization. De presenterade också en sammanfattare som bygger på metoder för sammanfattning av enstaka dokument men som utökats med tekniker för att möta dessa mycket specifika problem. De stod för ett mycket intressant och lärorikt seminarium och en tillika mycket läsvärd artikel.
Evaluation:
Mary
Ellen Okurowski, Harold Wilson, Joacquin Urbina, Tony Taylor, Ruth Colvin Clark
och Frank Krapcho har utfört en kundnära evaluering av ett sammanfattningssytem
i drift. De fann att stora delar av de tilltänkta användarna inte använde
systemet alls eller i alla fall inte till dess eller deras fulla potential.
Deras slutsats efter genomförd evaluering var att gränssnitt till
sammanfattningssystem måste vara utformade så att användarna får en känsla för
hur allt fungerar och hänger ihop. Får det inte det har de svårt att lita på
systemet och är dessutom ovilliga att lära sig alternativt att lära sig mer när
de väl hittat en metod som fungerar. De gör en stor poäng av att det vanligaste
kravet från användare inte är trimmning av kvalitet utan snarare upplevd
tillförlitlighet och användarvänlighet. Evalueringen av sammanfattningssystem
(och de flesta system överhuvudtaget antar jag) måste alltså hamna närmare de
faktiska användarna.
Robert
L Donaway, Kevin W Drummey och Laura A Matcher presenterade olika mått som man
kan använda vid utvärdering av sammanfattningar samt pratade kring hur dessa
kan användas. Bland de mått de presenterade återfanns recall, satsrankning
och innehåll. Recall fungerar så att professionella mänskliga
sammanfattare extraherar vad de anser vara de viktigaste satserna i ett antal
texter för att representera sammanfattningar av dessa texter. Evalueringen går
sedan så att man får man poäng efter hur många av dessa man fått med vid den
automatiska sammanfattningen. Satsrankning innebär att professionella
mänskliga sammanfattare får ranka satserna i ett antal extrakt, gjorda av
professionella mänskliga sammanfattare, efter hur viktiga de är. Sedan utför
man utför recall-evaluering och summerar de överlappande satsernas rank.
På så sätt får man en finare skala med färre tie-break mellan satser. Till sist
kan man jämföra automatiskt framställda sammanfattningar med manuellt gjorda
sammanfattningar för att se ifall det centrala i texten fångats upp på ett
likvärdigt sätt. Detta kan enkelt göras genom att man jämför dem för likhet med
COSINE. Detta leder till en mycket finare skala utan att leda till så stor
subjektivitet som satsrankning gör. Dessutom är inte COSINE mycket mer
processkrävande än satsrankning.
Multimedia
Summarization:
Här
presenterade Inderjeet Mani, Kristian Concepcion och Linda van Guilder ett
system som automatiskt genererar multimedia briefings från högnivå-riktlinjer.
Systemet använder sammanfattning för val av innehåll och för att skapa en
koherent text att återge, tillsammans med sammanställda bilder, via en
talsyntes. Systemet visades i en demonstration och var imponerande. Det var
dock svårt att få någon insikt i dess verkliga inre. Systemets komponenter och
deras respektive funktioner presenterades dock.
Paneldebatter:
Paneldebatterna
berörde språkmodellering respektive industriperspektiv och bestod av ett antal
snabba demontrationer/presentationer/påståenden som sedan diskuterades.
Sammanfattningar på vad som dryftades har utlovats på webben.
Mitt
intryck efter workshopen är att det som är hett just nu är de tre
"multi'sarna" sam satsreduktion. De tre "multi'sarna" står
för multi-dokument, multi-media och multi-language summarization och
satsreduktion går ut på att man inte bara extraherar hela satser ur ett eller
flera dokument utan att man även postediterar dem genom att rekonstrera
och/eller stryka fraser i dem.
Mina
intryck av konferensens ’Main Proceedings’ är att det (för mig) intressanta kom
i väldigt spridda skurar. Det var en var en väldigt bred och omfattande
konferens och mycket hängde på hur väl förberedda, hur vana och hur
entusiastiska föredragshållarna var. Konferensen täckte allt från statistisk
parsing, Part-of-Speech-taggning, ordprediktion och kontextfria grammatiker
till maskinöversättning, dialogsystem, semantisk tolkning av innehåll och
analys av taltranskriptioner. Viss redundans mot workshopen förekom
naturligtvis också. En intressant detalj som verkar peka på att lingvistiken nu
(kanske) helt accepterat statistiska metoder var att en av seminariehållarna
ursäktade sig för att ha enbart använt lingvistiska metoder. Några av
höjdpunkterna från konferensens huvuddel var iaf:
Daniel Marcu presenterade ett papper (The Automatic Translation of Discourse Structures, Marcu, Carlson & Watanabe) som beskriver ett försök att förbättra maskinöversättning från japanska till engelska. Detta har man gjort genom att bygga och analysera diskursstrukturer på en japansk-engelsk parallellkorpus. Man har sedan konstruerat omskrivningsregler mellan den japanska och den engelska resulterande diskursstrukturen..
Michael Strube presenterade en probabilistisk genreoberoende modell för pronominalisering (A Probabilistisk Genre-Independent Model of Pronominalization, Strube & Wolter). Deras mål har varit att identifiera genreoberoende faktorer som påverkar valet att pronominalisera. De har lyckats visa att endast ett fåtal faktorer starkt påverkar valet att pronominalisera. Denna information kan bland annat användas vid text generering för att få ’naturligare’ texter.
Freddy Y. Y. Choi (Advances in domain independent linear text segemntation) presenterade en väldigt intressant metod för att segmentera linjär text som är dubbelt så precis och mer än sju gången så snabb som ’state-of-the-art’. Han använder en metod hämtad från IR för att jämföra stycken av skriven text för likhet och kan därmed identifiera topikgränser.
Hongyan Jing (Cut-and-Paste Based Text Summarization, Jing & McKeown) presenterade en extraktionsbaserad sammanfattare som postediterar de extraherade satserna. Detta görs med reduktionsregler för att stryka oviktiga fraser och med kombinationsregler för att kombinera och remodellera satser. Dessa regler har tagits fram genom att analysera parsträd gjorda på en korpus av mänskliga abstrakt och deras ursprungstexter.
Frågor besvaras gärna via mail, xmartin@nada.kth.se, eller titta förbi rum 1645 där även Proceedings för både Workshop och konferensens huvuddel finns.