Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 89

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 89 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 892020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 89)

Каждое следующее предложение берется из другогодокумента.Для кластера примера была получена следующая аннотация (в скобках указанисточник новости и время публикации):ПредложенияТематические узлыКитай и Тайвань установили авиасообщение после 60летнего перерыва(Новые Известия - лента новостей, 04.07.2008 11:08:45)КИТАЙ, ТАЙВАНЬ,АВИАЦИОННЫЕПЕРЕВОЗКИ(авиасообщение)КИТАЙ, ЧАРТЕРНЫЕПЕРЕВОЗКИ (чартерныйрейс), ГОРОД, ПАССАЖИРКИТАЙ, ТАЙВАНЬ,Первый чартерный рейс с 250 пассажирами уже прибыл встолицу Тайваня из китайского города Гуанчжоу.(Lenta.ru - главные новости, 04.07.2008 9:47:25)С 4 июля самолеты с материкового Китая на остров333ПредложенияТематические узлыТайвань и обратно будут летать каждую неделю спятницы по понедельник.

(РегKURSCITY.RU - Курс,04.07.2008 9:35:34)Перед прибывающими в ближайшие выходные 600туристами из Китая будет расстилаться краснаяковровая дорожка.(BBCRussian.com (Главная), 04.07.2008 1:18:25)По завершении в 1949 году гражданской войны в Китае иизгнания правительства Гом-Инь-Дана на Тайвань,отношения между двумя сторонами Тайваньскогопролива были заморожены. (РегЛІГАБізнесІнформ Украины - Новости за рубежом, 04.07.2008 9:14:00)АВИАЦИОННЫЕПЕРЕВОЗКИ (самолет),ОСТРОВКИТАЙ, ТУРИСТКИТАЙ, ТАЙВАНЬ,ПРАВИТЕЛЬСТВОВ заголовке аннотации мы имеем три основных тематических узла: КИТАЙ,ТАЙВАНЬ, АВИАЦИОННЫЕ ПЕРЕВОЗКИ:- в первом предложении сообщается о конкретных городах, связанных савиаперевозками, и указывается о том, что перевозки чартерные – такимобразом, упомянуты еще два тематических узла – ГОРОД и ЧАРТЕРНЫЕПЕРЕВОЗКИ;- второе предложение содержит новый тематический узел ОСТРОВ;- третье предложение содержит узел ТУРИСТ;- четвертое предложение содержит тематический узел ПРАВИТЕЛЬСТВОТаким образом, каждое предложение содержит не менее двух разных основныхтематических узлов, один из которых новый (выделен подчеркиванием в правом столбцетаблицы), а другой был упомянут ранее.22.3.3.

Тестирование предложенной модели аннотации новостного кластераПредлагая метод аннотирования новостного кластера, мы сделали несколькопредположений о внутренней структуре аннотации и о нашей способности выявлять этуструктуру на основе создаваемого автоматически тематического представления. Дляпроверки предложенной модели аннотации новостного кластера был проведѐнэксперимент по проверке соответствия сделанных предположений ручным аннотациям,составленными экспертами-лингвистами.Лингвисты создали несколько аннотаций новостных кластеров из предложенийэтого кластера.

Аннотация представляла собой заголовок и четыре предложения. Общееколичество разных аннотаций в эксперименте – 13. Для новостных кластеров былиполучены их тематические представления. Далее ручные аннотации были размечены напредмет наличия основных тематических узлов для данного кластера и именованныхсущностей.Задачей данной разметки являлась проверка описанных выше условий длясоставления аннотаций, а именно:1. Действительно ли реальные аннотации должны содержать в себе какминимум два основных тематических узла из тематического представлениятекста и/или именованные сущности.2. Используются ли в ручных аннотациях понятия-элементы основныхтематических узлов и именованные сущности для организации лексическойсвязности текста, а именно, повторяются ли в последующих предложенияхручных аннотаций понятия уже упомянутых основных тематических узловили уже упомянутые именованные сущности.3343.

Содержат ли очередные предложения элементы новизны в виде нового, ещене упоминавшегося тематического узла или именованной сущности.Результаты эксперимента представлены в таблице 22.1.Проверка представленности основных тематических узлов:Всего предложений:65Из них количество предложений с не менее чем60двумя тематическими узлами:Количество предложений, в которых естьодин основной тематический узел и не менее чем одна58именованная сущность:Оценка связности и новизны:Общее количество предложений, не считая первые52предложения:Количество предложений с новым основным тематическим35узлом:Количество предложений с новым именем:28Количество предложений с повтором упоминавшегося46тематического узла:Количество предложений с повтором упоминавшегося38имени:Таблица 22.1.

Выявление основных тематических узлов и именованных сущностейв ручных аннотацияхРезультатом проведѐнного анализа явился тот факт, что 83% предложенийреальных ручных аннотаций (от общего числа предложений), сделанных экспертамилингвистами, удовлетворяют сделанным предположениям. Особенность оставшихся 17%предложений состоит в том, что все они являлись последними предложениями ручнойаннотации. Такая ситуация связана с тем, что основная тема новостного кластера ужеизложена, и дальнейшее описание событий «разрывается» на второстепенные темыдокументы, которых обычно имеется большое количество).Проведенный эксперимент доказывает, что сделанные предположения в методеавтоматического аннотирования новостных кластеров имеют высокую корреляцию соструктурой человеческих аннотаций.22.3.4. Оценка качества аннотаций новостных кластеровКак мы упоминали в разделе 14.2.3.2, тестирование качества автоматическиханнотаций является сложной процедурой.

В качестве метрики аннотаций новостныхкластеров, позволяющая автоматизировать этот процесс, используется такая метрика какROUGE, которая подсчитывает число перекрытия (n-граммы слов) автоматическойаннотации с «идеальными» аннотациями, составленными людьми (Lin, 2004).Другой используемой мерой оценки качества аннотаций является Метод Пирамид,который основан на ручном выделении экспертами «информационных единиц» изэталонных аннотаций - Summary Content Units (SCUs) и вычислении процентной долиэтих единиц, упомянутых в автоматических аннотациях (Harnly и др., 2005).Далее рассмотрим подробнее результаты применения этих методов оценки длятестирования наших аннотаций новостных кластеров.

Кроме того, будет рассмотренапроцедура применения ручных оценок.33522.3.4.1. Тестирование аннотаций новостных кластеров методом ROUGEПоскольку в разных статьях, описывающих эту метрику, содержатся несколькоразные способы ее вычисления, то конкретные используемые нами формулы мы назвалиROUGE-1-cir и ROUGE-2-cir (Лукашевич, Добров 2009) и вычисляли их следующимобразом:ROUGE  N  cir ( Ai ) Mi jcount( Ngram( Ai )  Ngram( M i j ))Mi jcount( Ngram( M i j ),где Ai – оцениваемая обзорная аннотация i-того кластера, Mij – ручные аннотацииi-того кластера, Ngram(D) – множество всех n-грамм из лемм соответствующегодокумента D. При сравнении отдельных документов в расчет берутся только уникальныеn-граммы, присутствующие в обоих документах - не поощряется многократный повтородного и того же предложения.

При рассмотрении нескольких аннотаций, наоборот,повторение одинаковых элементов поощряется. Биграммы в наших оценках учитывалисьс перестановками.Для оценки качества построенных аннотаций мы воспользовались данными,любезно предоставленными С.Д. Тарасовым (Военмех, Спб.). В проведенныхС.Д. Тарасовым экспериментах группе студентов было предложено построить ручнуюаннотацию для новостных кластеров, которые брались из системы Google.Новости впериод с 01 по 05 декабря 2008 года. Ручная аннотация должна была быть составлена изчетырех предложений.

Ограничений на выбор предложений из разных текстов ненакладывалось.Мы выбрали достаточно случайным образом из полученных данных 15 новостныхкластеров разной тематики, включая новости о погоде, спорте, финансах и политике, длякоторых имелось от 18 до 40 ручных аннотаций (всего 462).В качестве «базовой оценки», следуя (Dang, 2006), мы рассматривали следующиеварианты искусственных аннотаций:- первый документ кластера;- заголовки первых четырех документов;- первые предложения первых четырех документов;- последний документ кластера.В качестве автоматической аннотации рассматривались аннотации из заголовка итрех предложений, взятых из разных текстов.Мы получили следующие результаты (в таблице приведены результаты дляразных параметров ядра кластера – см.п. 23.3.2) :Вид аннотациипервый документ кластеразаголовки первых четырех документовпервые предложения первых 4 документовпоследний документ кластераавтоматическая аннотация с ядром 0,20автоматическая аннотация с ядром 0,40ROUGE-1-cir0,2190,1620,2690,2780,3310,328ROUGE-2-cir0,0830,0560,1070,1680,1500,140Следует отметить, что некоторые ручные аннотации совпадали с первым илипоследним документом кластера.

Определенным недостатком используемых данныхявляется то, что некоторые кластеры содержали документы за несколько дней, поэтомуручные аннотации чаще содержали предложения из последних документов кластера.Существует определенная критика использования метрик ROUGE для оценкикачества аннотирования. Метрика чувствительна к длинам сравниваемых документов, не336учитывает связность аннотаций. В целом, существует большое разнообразие междуручными аннотациями разных экспертов. В нашем случае нам лишь важно было оценитьблизость построенных автоматических и ручных аннотаций для оценки перспективностипредложенного подхода.22.3.4.2.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.