Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 89
Текст из файла (страница 89)
Каждое следующее предложение берется из другогодокумента.Для кластера примера была получена следующая аннотация (в скобках указанисточник новости и время публикации):ПредложенияТематические узлыКитай и Тайвань установили авиасообщение после 60летнего перерыва(Новые Известия - лента новостей, 04.07.2008 11:08:45)КИТАЙ, ТАЙВАНЬ,АВИАЦИОННЫЕПЕРЕВОЗКИ(авиасообщение)КИТАЙ, ЧАРТЕРНЫЕПЕРЕВОЗКИ (чартерныйрейс), ГОРОД, ПАССАЖИРКИТАЙ, ТАЙВАНЬ,Первый чартерный рейс с 250 пассажирами уже прибыл встолицу Тайваня из китайского города Гуанчжоу.(Lenta.ru - главные новости, 04.07.2008 9:47:25)С 4 июля самолеты с материкового Китая на остров333ПредложенияТематические узлыТайвань и обратно будут летать каждую неделю спятницы по понедельник.
(РегKURSCITY.RU - Курс,04.07.2008 9:35:34)Перед прибывающими в ближайшие выходные 600туристами из Китая будет расстилаться краснаяковровая дорожка.(BBCRussian.com (Главная), 04.07.2008 1:18:25)По завершении в 1949 году гражданской войны в Китае иизгнания правительства Гом-Инь-Дана на Тайвань,отношения между двумя сторонами Тайваньскогопролива были заморожены. (РегЛІГАБізнесІнформ Украины - Новости за рубежом, 04.07.2008 9:14:00)АВИАЦИОННЫЕПЕРЕВОЗКИ (самолет),ОСТРОВКИТАЙ, ТУРИСТКИТАЙ, ТАЙВАНЬ,ПРАВИТЕЛЬСТВОВ заголовке аннотации мы имеем три основных тематических узла: КИТАЙ,ТАЙВАНЬ, АВИАЦИОННЫЕ ПЕРЕВОЗКИ:- в первом предложении сообщается о конкретных городах, связанных савиаперевозками, и указывается о том, что перевозки чартерные – такимобразом, упомянуты еще два тематических узла – ГОРОД и ЧАРТЕРНЫЕПЕРЕВОЗКИ;- второе предложение содержит новый тематический узел ОСТРОВ;- третье предложение содержит узел ТУРИСТ;- четвертое предложение содержит тематический узел ПРАВИТЕЛЬСТВОТаким образом, каждое предложение содержит не менее двух разных основныхтематических узлов, один из которых новый (выделен подчеркиванием в правом столбцетаблицы), а другой был упомянут ранее.22.3.3.
Тестирование предложенной модели аннотации новостного кластераПредлагая метод аннотирования новостного кластера, мы сделали несколькопредположений о внутренней структуре аннотации и о нашей способности выявлять этуструктуру на основе создаваемого автоматически тематического представления. Дляпроверки предложенной модели аннотации новостного кластера был проведѐнэксперимент по проверке соответствия сделанных предположений ручным аннотациям,составленными экспертами-лингвистами.Лингвисты создали несколько аннотаций новостных кластеров из предложенийэтого кластера.
Аннотация представляла собой заголовок и четыре предложения. Общееколичество разных аннотаций в эксперименте – 13. Для новостных кластеров былиполучены их тематические представления. Далее ручные аннотации были размечены напредмет наличия основных тематических узлов для данного кластера и именованныхсущностей.Задачей данной разметки являлась проверка описанных выше условий длясоставления аннотаций, а именно:1. Действительно ли реальные аннотации должны содержать в себе какминимум два основных тематических узла из тематического представлениятекста и/или именованные сущности.2. Используются ли в ручных аннотациях понятия-элементы основныхтематических узлов и именованные сущности для организации лексическойсвязности текста, а именно, повторяются ли в последующих предложенияхручных аннотаций понятия уже упомянутых основных тематических узловили уже упомянутые именованные сущности.3343.
Содержат ли очередные предложения элементы новизны в виде нового, ещене упоминавшегося тематического узла или именованной сущности.Результаты эксперимента представлены в таблице 22.1.Проверка представленности основных тематических узлов:Всего предложений:65Из них количество предложений с не менее чем60двумя тематическими узлами:Количество предложений, в которых естьодин основной тематический узел и не менее чем одна58именованная сущность:Оценка связности и новизны:Общее количество предложений, не считая первые52предложения:Количество предложений с новым основным тематическим35узлом:Количество предложений с новым именем:28Количество предложений с повтором упоминавшегося46тематического узла:Количество предложений с повтором упоминавшегося38имени:Таблица 22.1.
Выявление основных тематических узлов и именованных сущностейв ручных аннотацияхРезультатом проведѐнного анализа явился тот факт, что 83% предложенийреальных ручных аннотаций (от общего числа предложений), сделанных экспертамилингвистами, удовлетворяют сделанным предположениям. Особенность оставшихся 17%предложений состоит в том, что все они являлись последними предложениями ручнойаннотации. Такая ситуация связана с тем, что основная тема новостного кластера ужеизложена, и дальнейшее описание событий «разрывается» на второстепенные темыдокументы, которых обычно имеется большое количество).Проведенный эксперимент доказывает, что сделанные предположения в методеавтоматического аннотирования новостных кластеров имеют высокую корреляцию соструктурой человеческих аннотаций.22.3.4. Оценка качества аннотаций новостных кластеровКак мы упоминали в разделе 14.2.3.2, тестирование качества автоматическиханнотаций является сложной процедурой.
В качестве метрики аннотаций новостныхкластеров, позволяющая автоматизировать этот процесс, используется такая метрика какROUGE, которая подсчитывает число перекрытия (n-граммы слов) автоматическойаннотации с «идеальными» аннотациями, составленными людьми (Lin, 2004).Другой используемой мерой оценки качества аннотаций является Метод Пирамид,который основан на ручном выделении экспертами «информационных единиц» изэталонных аннотаций - Summary Content Units (SCUs) и вычислении процентной долиэтих единиц, упомянутых в автоматических аннотациях (Harnly и др., 2005).Далее рассмотрим подробнее результаты применения этих методов оценки длятестирования наших аннотаций новостных кластеров.
Кроме того, будет рассмотренапроцедура применения ручных оценок.33522.3.4.1. Тестирование аннотаций новостных кластеров методом ROUGEПоскольку в разных статьях, описывающих эту метрику, содержатся несколькоразные способы ее вычисления, то конкретные используемые нами формулы мы назвалиROUGE-1-cir и ROUGE-2-cir (Лукашевич, Добров 2009) и вычисляли их следующимобразом:ROUGE N cir ( Ai ) Mi jcount( Ngram( Ai ) Ngram( M i j ))Mi jcount( Ngram( M i j ),где Ai – оцениваемая обзорная аннотация i-того кластера, Mij – ручные аннотацииi-того кластера, Ngram(D) – множество всех n-грамм из лемм соответствующегодокумента D. При сравнении отдельных документов в расчет берутся только уникальныеn-граммы, присутствующие в обоих документах - не поощряется многократный повтородного и того же предложения.
При рассмотрении нескольких аннотаций, наоборот,повторение одинаковых элементов поощряется. Биграммы в наших оценках учитывалисьс перестановками.Для оценки качества построенных аннотаций мы воспользовались данными,любезно предоставленными С.Д. Тарасовым (Военмех, Спб.). В проведенныхС.Д. Тарасовым экспериментах группе студентов было предложено построить ручнуюаннотацию для новостных кластеров, которые брались из системы Google.Новости впериод с 01 по 05 декабря 2008 года. Ручная аннотация должна была быть составлена изчетырех предложений.
Ограничений на выбор предложений из разных текстов ненакладывалось.Мы выбрали достаточно случайным образом из полученных данных 15 новостныхкластеров разной тематики, включая новости о погоде, спорте, финансах и политике, длякоторых имелось от 18 до 40 ручных аннотаций (всего 462).В качестве «базовой оценки», следуя (Dang, 2006), мы рассматривали следующиеварианты искусственных аннотаций:- первый документ кластера;- заголовки первых четырех документов;- первые предложения первых четырех документов;- последний документ кластера.В качестве автоматической аннотации рассматривались аннотации из заголовка итрех предложений, взятых из разных текстов.Мы получили следующие результаты (в таблице приведены результаты дляразных параметров ядра кластера – см.п. 23.3.2) :Вид аннотациипервый документ кластеразаголовки первых четырех документовпервые предложения первых 4 документовпоследний документ кластераавтоматическая аннотация с ядром 0,20автоматическая аннотация с ядром 0,40ROUGE-1-cir0,2190,1620,2690,2780,3310,328ROUGE-2-cir0,0830,0560,1070,1680,1500,140Следует отметить, что некоторые ручные аннотации совпадали с первым илипоследним документом кластера.
Определенным недостатком используемых данныхявляется то, что некоторые кластеры содержали документы за несколько дней, поэтомуручные аннотации чаще содержали предложения из последних документов кластера.Существует определенная критика использования метрик ROUGE для оценкикачества аннотирования. Метрика чувствительна к длинам сравниваемых документов, не336учитывает связность аннотаций. В целом, существует большое разнообразие междуручными аннотациями разных экспертов. В нашем случае нам лишь важно было оценитьблизость построенных автоматических и ручных аннотаций для оценки перспективностипредложенного подхода.22.3.4.2.