Reserapport från ANLP/NAACL 2000 6th Applied Natural Language Processing Conference and 1st Meeting of the North American Chap

Reserapport från ANLP/NAACL 2000 6th Applied Natural Language Processing Conference and 1st Meeting of the North American Chapter of the Association for Computational Linguistics i Seattle, Washington, USA, 29:e april – 4 maj 2000, av Martin Hassel.

Konferensen är en bred konferens som täcker det mesta inom området naturligt språkbehandling. På grund av det ökande intresset Internet och för språkkänslig indexering inom IR (Information Retrieval) håller den nu även gradvis på att breddas med heuristiska/statistiska angreppssätt på NLP.

Workshop om Automatisk sammanfattning (Automatic Summarization)

Denna workshop var uppdelad på fem sessioner och två paneldebatter. Sessionerna handlade om val av innehåll (Content Selection), visualisering (Visualization) flerdokumentssammanfattning (Multi-Document Summarization), evaluering (Evaluation) och sammanfattning av/för multimedia (Multimedia Summarization).

Content Selection:

Content Selection handlar om hur man identifierar och extraherar önskat innehåll ur en text. Horacio Saggion och Guy Lapalme har t.ex. genom att undersöka 100 abstract och 100 andra texter från en korpus av tekniska artiklar lyckats identifiera totalt 52 olika typer av information. Bland dessa hittar man bland annat explicit topik, situationen, identifiering av problemet, identifiering av lösningen, inferenser, relevans, fördelar etc. Dessa använder de sedan för att producera indikativa abstract vilket i princip består av ett extrakt, en termlista och en kontext för de viktigaste termerna.

I denna session presenterades det också en metod för att automatiskt identifiera och klassificera diskursmarkörer i kinesiska texter. Denna metod har tagits fram av Samuel W K Chan, Tom B Y Lai, W J Gao och Benjamin K T’sou.

Visualization:

Visualization behandlar som namnet antyder om hur den sammanfattade informationen ska presenteras för användaren. Här visade Rie Kubota Ando, Branimir K Boguraev, Roy J Byrd och Mary S Neff en visualiseringsmetod för flerdokumentssammanfattning. I en uppsättning ramar i en vanlig webbläsare presenteras de olika satserna extraherade ur dokumenten tillsammans med en grafisk representation av hur de övriga dokumenten förhåller sig likhetsmässigt (i en slags tvådimensionell ”semantisk” rymd). En uppsättning nyckelord presenteras också för varje dokument.

Multi-Document Summarization:

Denna session behandlar metoder för att sammanfatta flera texter till ett och samma extrakt/abstrakt. Här är det många nya frågor som dyker upp som det inte funnits behov för att beakta vid sammanfattning av ett isolerat dokument. Man måste till exempel gruppera dokumenten (likhet/topik), ordna grupperna inbördes (kronologiskt/hierarkiskt), undvika införd redundans (jämföra satser från de olika dokumenten för likhet) etc.

Här hölls det tre seminarier. Dels presenterade Dragomir R Radev, Hongyan Jing och Malgorzata Budzikowska en multi-document summarizer kallad MEAD. Denna använder standard IR-metoder (TF*IDF) for att klustra nyhetsartiklar om samma händelse. Dessa kluster används sedan som indata till MEAD varpå satsextraktion av centrala satser sker.

Fumiyo Fukumoto och Yoshimi Suzuki har istället utvecklat en metod för att identifiera topik- och händelseord. Dessa används sedan för att identifiera nyckelparagrafer i en eller flera texter varpå dessa paragrafer extraheras till en sammanfattning.

Avslutade gjorde Jade Goldstein, Vibhu Mittal, Jaime Carbonell och Mark Kantrowitz med en mycket noggrann genomgång av de mycket specifika problem som uppstår vid multi-document summarization. De presenterade också en sammanfattare som bygger på metoder för sammanfattning av enstaka dokument men som utökats med tekniker för att möta dessa mycket specifika problem. De stod för ett mycket intressant och lärorikt seminarium och en tillika mycket läsvärd artikel.

Evaluation:

Mary Ellen Okurowski, Harold Wilson, Joacquin Urbina, Tony Taylor, Ruth Colvin Clark och Frank Krapcho har utfört en kundnära evaluering av ett sammanfattningssytem i drift. De fann att stora delar av de tilltänkta användarna inte använde systemet alls eller i alla fall inte till dess eller deras fulla potential. Deras slutsats efter genomförd evaluering var att gränssnitt till sammanfattningssystem måste vara utformade så att användarna får en känsla för hur allt fungerar och hänger ihop. Får det inte det har de svårt att lita på systemet och är dessutom ovilliga att lära sig alternativt att lära sig mer när de väl hittat en metod som fungerar. De gör en stor poäng av att det vanligaste kravet från användare inte är trimmning av kvalitet utan snarare upplevd tillförlitlighet och användarvänlighet. Evalueringen av sammanfattningssystem (och de flesta system överhuvudtaget antar jag) måste alltså hamna närmare de faktiska användarna.

Robert L Donaway, Kevin W Drummey och Laura A Matcher presenterade olika mått som man kan använda vid utvärdering av sammanfattningar samt pratade kring hur dessa kan användas. Bland de mått de presenterade återfanns recall, satsrankning och innehåll. Recall fungerar så att professionella mänskliga sammanfattare extraherar vad de anser vara de viktigaste satserna i ett antal texter för att representera sammanfattningar av dessa texter. Evalueringen går sedan så att man får man poäng efter hur många av dessa man fått med vid den automatiska sammanfattningen. Satsrankning innebär att professionella mänskliga sammanfattare får ranka satserna i ett antal extrakt, gjorda av professionella mänskliga sammanfattare, efter hur viktiga de är. Sedan utför man utför recall-evaluering och summerar de överlappande satsernas rank. På så sätt får man en finare skala med färre tie-break mellan satser. Till sist kan man jämföra automatiskt framställda sammanfattningar med manuellt gjorda sammanfattningar för att se ifall det centrala i texten fångats upp på ett likvärdigt sätt. Detta kan enkelt göras genom att man jämför dem för likhet med COSINE. Detta leder till en mycket finare skala utan att leda till så stor subjektivitet som satsrankning gör. Dessutom är inte COSINE mycket mer processkrävande än satsrankning.

Multimedia Summarization:

Här presenterade Inderjeet Mani, Kristian Concepcion och Linda van Guilder ett system som automatiskt genererar multimedia briefings från högnivå-riktlinjer. Systemet använder sammanfattning för val av innehåll och för att skapa en koherent text att återge, tillsammans med sammanställda bilder, via en talsyntes. Systemet visades i en demonstration och var imponerande. Det var dock svårt att få någon insikt i dess verkliga inre. Systemets komponenter och deras respektive funktioner presenterades dock.

Paneldebatter:

Paneldebatterna berörde språkmodellering respektive industriperspektiv och bestod av ett antal snabba demontrationer/presentationer/påståenden som sedan diskuterades. Sammanfattningar på vad som dryftades har utlovats på webben.

Mitt intryck efter workshopen är att det som är hett just nu är de tre "multi'sarna" sam satsreduktion. De tre "multi'sarna" står för multi-dokument, multi-media och multi-language summarization och satsreduktion går ut på att man inte bara extraherar hela satser ur ett eller flera dokument utan att man även postediterar dem genom att rekonstrera och/eller stryka fraser i dem.

Konferensen:

Mina intryck av konferensens ’Main Proceedings’ är att det (för mig) intressanta kom i väldigt spridda skurar. Det var en var en väldigt bred och omfattande konferens och mycket hängde på hur väl förberedda, hur vana och hur entusiastiska föredragshållarna var. Konferensen täckte allt från statistisk parsing, Part-of-Speech-taggning, ordprediktion och kontextfria grammatiker till maskinöversättning, dialogsystem, semantisk tolkning av innehåll och analys av taltranskriptioner. Viss redundans mot workshopen förekom naturligtvis också. En intressant detalj som verkar peka på att lingvistiken nu (kanske) helt accepterat statistiska metoder var att en av seminariehållarna ursäktade sig för att ha enbart använt lingvistiska metoder. Några av höjdpunkterna från konferensens huvuddel var iaf:

Daniel Marcu presenterade ett papper (The Automatic Translation of Discourse Structures, Marcu, Carlson & Watanabe) som beskriver ett försök att förbättra maskinöversättning från japanska till engelska. Detta har man gjort genom att bygga och analysera diskursstrukturer på en japansk-engelsk parallellkorpus. Man har sedan konstruerat omskrivningsregler mellan den japanska och den engelska resulterande diskursstrukturen..

Michael Strube presenterade en probabilistisk genreoberoende modell för pronominalisering (A Probabilistisk Genre-Independent Model of Pronominalization, Strube & Wolter). Deras mål har varit att identifiera genreoberoende faktorer som påverkar valet att pronominalisera. De har lyckats visa att endast ett fåtal faktorer starkt påverkar valet att pronominalisera. Denna information kan bland annat användas vid text generering för att få ’naturligare’ texter.

Freddy Y. Y. Choi (Advances in domain independent linear text segemntation) presenterade en väldigt intressant metod för att segmentera linjär text som är dubbelt så precis och mer än sju gången så snabb som ’state-of-the-art’. Han använder en metod hämtad från IR för att jämföra stycken av skriven text för likhet och kan därmed identifiera topikgränser.

Hongyan Jing (Cut-and-Paste Based Text Summarization, Jing & McKeown) presenterade en extraktionsbaserad sammanfattare som postediterar de extraherade satserna. Detta görs med reduktionsregler för att stryka oviktiga fraser och med kombinationsregler för att kombinera och remodellera satser. Dessa regler har tagits fram genom att analysera parsträd gjorda på en korpus av mänskliga abstrakt och deras ursprungstexter.

Frågor besvaras gärna via mail, xmartin@nada.kth.se, eller titta förbi rum 1645 där även Proceedings för både Workshop och konferensens huvuddel finns.