Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 55
Текст из файла (страница 55)
Различия возникают в томслучае, когда очередной термин может быть отнесен к более чем одной лексическойцепочке. Тогда эти цепочки склеиваются в единую цепочку, а составные части этойединой цепочки удаляются из списка цепочек.Получается граф достаточно сложной формы (см. рис. 14.3). Этот граф с помощьюалгоритмов кластеризации графа разбивается на фрагменты так, чтобы между каждымэлементом подграфа было расстояние не более 3 шагов, тем самым получаются сильносвязанные между собой подграфы, которые и предлагается считать лексическимицепочками.14.2.3.
Лексические цепочки в задачах автоматической обработки текстов.Автоматическое аннотирование.Автоматически выявляемые лексические цепочки используются при решенииразнообразных прикладных задач:- автоматической сегментации текстов (Min-Yen и др., 1998, Mochizuki и др.,2000) ,- автоматического разрешения многозначности (Galley, McKeown, 2003);- информационный поиск (Stairmand, 1996);- автоматическое аннотирование текстов (Barzilay, Elhadad, 1999; Silber McCoy,2000; Brunn и др., 2001; Stokes, 2004; Reeve и др., 2006);- распознавание тем текстов (Carthy, Smeaton, 2000),- построение вопросно-ответных систем (Moldovan, Novischi, 2002) и др.Одним из самых популярных применений лексических цепочек являетсяавтоматическое аннотирование текстов.
В следующих разделах мы подробнее рассмотримособенности этой задачи автоматической обработки текстов, методы ее решения, а такжеалгоритмы использования лексических цепочек в этой задаче.20314.2.3.1 Виды и методы автоматического аннотирования документовСовременные объемы информации требуют автоматизации процесса краткогоизложения отдельных текстов или группы текстов на одну и ту же тематику.Основной целью составления аннотации является изложение важной информацииих исходного текста (текстов) с помощью меньшего количества предложений.Существуют разные виды аннотаций (Radev и др., 2002).
Индикативная аннотациядолжна передать информацию об общем содержании документа, не сообщая деталей.Информативная аннотация должна сохранить информационную ценность исходногосообщения. Тематически-ориентированные аннотации должны отразить информацию изтекста, соответствующую теме, интересующей пользователя, так называемые аннотациипо запросу (query-based summaries).
Экстрактивная аннотация состоит из фрагментов(предложений) исходного текста, в то время как аннотации в форме абстрактапорождаются на основе извлеченного содержания.Несмотря на существование ряда исследований по созданию аннотацийабстрактов, основные исследования в настоящее время сосредоточены в сфереэкстрактивных аннотаций. Далее мы будем говорить только об экстрактивныханнотациях.Большинство систем аннотирования используют предложения исходного текста вкачестве единиц порождаемой аннотации.
Для предложения на основе выделенныххарактеристик подсчитываются веса, из предложений с наибольшими весамиформируются аннотации.Характеристики, на основе которых может составляться вес предложения, могутбыть следующими:- позиция в тексте,- частотность слов,- наличие ключевых фраз вида «Необходимо подчеркнуть»,- длина предложения,- именованные сущности,- повторяемость слов и др.,Современные подходы используют методы машинного обучения для учетавозможных характеристик предложений, включаемых в аннотации (Li и др., 2006).Одним из относительно новых направлений составления аннотаций являетсясоставление аннотации на основе многих документов – обзорного реферата.
Присоставлении такого обзорного реферата необходимо решать такие задачи как:- борьба с избыточностью информации,- идентификация важных различий между документами,- обеспечение тематической связности текста, что усложняется тем, чтопредложения могут браться из разных источников.Обзорные рефераты могут делаться для различных наборов документов (Nenkova,Louis, 2008), например, таких как документы, описывающие конкретное событие,документы, обсуждающие одну и ту же тему, документы, обсуждающие биографиюодного и того же человека, документы, обсуждающие множество событий одного и тогоже типа, например, конкретные примеры насилия, документы, представляющие мненияразных сторон на общую тему (например, мнение сената, конгресса, общественности натему миграции).Для определения избыточности в порождаемых аннотациях используютсяразличные меры сходства между предложениями.
Одним из распространенных подходовявляется предварительная кластеризация – выделение близких по содержанию кластеровпредложений (Radev и др., 2000). Другим подходом к оценке избыточности являетсясравнение предложений-кандидатов с предложениями, уже попавшими в аннотацию, и204оценка новой (непохожей) информации, например, так называемый подход MaximalMarginal Relevance (MMR) (Carbonell, Goldstein, 1998)Обеспечение связности изложения является сложной проблемой, посколькутребует реального понимания содержания фрагментов и знаний о структуре связноготекста. Многие подходы ограничиваются учетом времени и порядка предложений в тексте(фрагмента из более раннего текста размещаются сначала, в порядке следования в тексте).14.2.3.2. Оценка качества аннотацийОценка качества автоматически порождаемых аннотаций является сложнойпроцедурой, поскольку даже для относительно содержательно простых документов какновостные сообщения, согласие между экспертами может составлять всего 60%.Оценка качества аннотации может быть внутренней и внешней.Внутренняя (intrinsic) оценка аннотаций связана с оценкой качества аннотации каксобственно текста, сравнения ее с исходным текстом или с аннотациями, порожденнымилюдьми.При оценке качества аннотации экспертам могут быть заданы такие вопросы соценкой по 5 бальной шкале:- является ли предложения аннотации грамматически правильными,- является ли текст аннотации связным,- содержит ли аннотация все основные обсуждаемые темы исходного документа(документов) и др.При оценке аннотаций по многим документам – обзорных рефератов в рамкахконференции DUC, эксперты помимо ответа на конкретные вопросы по качествуаннотаций должны проставить и две общие оценки аннотации (Dang, 2006).Во-первых, эксперты должны были оценить соответствие содержанию кластера, тоесть насколько реферат отображает необходимую для пользователя, формировавшегозапрос, информацию.
При этом не бралась в расчет читабельность реферата, до тех пор,пока она не влияла на объем покрытой в реферате информации.Во-вторых, эксперты ставили общую оценку аннотации, которая должна отражатькак содержательную часть реферата, так и его читабельность. При определении уровняобщего соответствия оценщикам не предоставляли доступ к ранее оцененнымхарактеристикам читабельности и соответствия содержанию, вместо этого они должныбыли «сходу» дать свою оценку. Многие из оценщиков посчитали для себя полезнымвыставлять уровень общего соответствия исходя из ответа на вопрос: «Сколько я бызаплатил за этот обзорный реферат?». В итоге, плохая читабельность систем занижала ихоценку общего соответствия, по сравнению с соответствием содержанию.
В то же время,рефераты с высоким показателем читабельности, получали оценки за общее соответствиевыше, по сравнению с оценками за соответствие содержания.Внешняя (extrinsic) оценка аннотации производится в специально поставленнойзадаче, в которой выясняется, может ли аннотация заменить исходный текст. Такимизадачами могут быть классификация документов по его аннотации, или ответы навопросы по содержанию документа на основе его аннотации.Один из первых масштабных экспериментов по внешней оценке аннотаций былосуществлен в рамках конференции SUMMAC (Tipster SUMMAC, 1998). В оценку быловключено три задачи:- задача классификации (насколько качество классификации документа поаннотации сравнимо с качеством классификации полного документа),- ad hoc задача – эксперты должны определить, насколько текст соответствуетзапросу по аннотации,- вопросно-ответная задача – эксперты должны ответить на вопросы поосновному содержанию документа на основании его аннотации.
(см. такжеп. 22.1)205Важным элементом современной оценкианнотаций является получениеавтоматических оценок качества аннотаций за счет автоматического сравненияпорожденной аннотации с аннотациями, написанными людьми.В рамках конференции DUC используется метод автоматической оценки качествааннотаций ROUGE (Recall Oriented Understudy for Gisting Evaluation), которыйподсчитывает число перекрытия (n-граммы слов) автоматической аннотации с«идеальными» аннотациями, составленными людьми (Lin, 2004) (см. также раздел 22.3.4).14.2.3.3. Использование лексических цепочек дляпорождения аннотацийПрименение лексических цепочек для автоматического аннотирования позволяетрешать несколько задач, возникающих в процессе автоматического аннотированиядокументов. Они помогают выявлять основную тему документа, и, кроме того, являютсядополнительным фактором обеспечения связности создаваемой аннотации. Рассмотримподробнее некоторые из предлагаемых подходов по использованию лексических цепочекдля порождения разного вида аннотаций.Одной из первых работ, описывающих применение алгоритмов выявлениялексических цепочек, к автоматическому аннотированию текстов, была работа (Barzilay,Elhadad, 1999).
Как указывалось в разделе 14.2.3, в этой работе был реализован алгоритмпостроения лексических цепочек на основе WordNet, а также были сделаны усилия, чтобыразобраться, какими свойствами должны обладать так называемые сильные лексическиецепочки, то есть цепочки, которые наилучшим образом отражают содержание текста.Идея применения лексических цепочек для автоматического аннотированиядокументов состоит в том, что если цепочка отражает важные темы документа, тонеобходимо для аннотации выбирать предложения, в которых встречались элементы этихважных цепочек.
Конкретный алгоритм был следующим: для каждой цепочки выбираетсяее представители –элементы цепочки, частотность которых превышает среднюючастотность элементов цепочки. Для составления аннотации берутся первые по порядкутекста предложения, которые содержат элемент-представитель для каждой из сильныхлексических цепочек. Таким образом, каждая сильная лексическая цепочка представлена,по крайней мере, одним предложением в аннотации.Для оценки качества предложенного метода автоматического аннотирования быловыбрано 40 новостных текстов, каждый в среднем по 30 предложений.
Пять ассессоровдолжны были сделать два вида аннотаций для этих текстов длиной 10% и 20% от длиныисходного текста.На основе этих аннотаций была сформирована «идеальная» аннотация, котораясодержала те предложения, которые были выбраны большинством ассессоров.Автоматически порождаемые аннотации были сравнены с аннотациями,порожденный суммаризатором Microsoft Word (см таб. 14.1), посредством вычисленияпоказателей полноты и точности:MicrosoftLexical chainPrecRecallPrecRecall10%3337616720%32394764Таблица 14.1.