Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 51

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 51 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 512020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 51)

Дляобработки этой коллекции использовался также и WordNet. Разные варианты примененияWordNet дали увеличение F1 меры от 2 до 7%. Относительное увеличение F1 меры наоснове медицинской онтологии дало 3-5% на разных прогонах.Также увеличение F1 меры было достигнуто на некоторых прогонах для текстовсельскохозяйственной тематики на базе тезауруса AGROVOC (до 10% F1 меры).В работе (Mansuy, Hilderman, 2006) исследуется влияние различных типоврасширения по отношениям WordNet в задаче отнесения множества документов к однойиз двух рубрик. 15 пар рубрик взято из нескольких коллекций, используемых для оценкикачества автоматической рубрикации: Reuters-21578, USENET, DigiTrad, Newsgroups. Дляэкспериментов использовались два классификатора: Naïve Bayes и SVM.

Были сделаныотдельные прогоны для базовой пословной модели, расширения синонимами, расширениясинонимами и гиперонимами, синонимами и гипонимами, синонимами и меронимами,синонимами и холонимами. Все расширения проводились только для существительных.В случае многозначных слов бралось наиболее частотное значение.Авторы работы получили, что расширение на гипонимы и меронимы (части) даетустойчивое снижение показателя «аккуратности» (accuracy), все остальные расширения непоказывают значимого повышения показателя по сравнению с базовым классификатором.Таким образом, на текущий момент разные исследования расходятся в мнениях поповоду того, насколько WordNet и другие онтологические ресурсы могут улучшитькачество автоматической рубрикации при использовании их в качестве источникдополнительных знаний для машинного обучения. Некоторые работы показываютнебольшое улучшение качества рубрикации, другие – не выявили никакого улучшениякачества или неустойчивое улучшение.Заключение к главе 13.При обилии информационных потоков в настоящее время автоматическаярубрикация поступающих документов является необходимым этапом обработки такихпотоков.Инженерное описание содержания рубрик сложного и большого рубрикатораявляется очень непростой задачей.

В то же время и создание обширнойипоследовательно отрубрицированной коллекции как основы для машинного обучениятакже является делом достаточно сложным и дорогим, не всегда возможным в конкретномприложении.При обоих подходах к автоматической рубрикации знания, собранные в тезаурусахи онтологиях, могут в какой-то степени облегчать задачу создания образа рубрики.Поэтому поиск возможностей интеграции тезаурусов и онтологий в различные методыавтоматической рубрикации является важным направлением исследований.190Глава 14. Моделирование связности текстаМногие модели обработки текстов в сфере информационного поиска базируютсяна предположении о независимом употреблении слов (bag of words models) в связномтексте.Между тем известно, что текст содержит множество связанных по смыслу слов, атакже имеет внутреннюю иерархическую структуру.Существует достаточно много разных приложений автоматической обработкитекстов, которые могли выдавать более качественные результаты, если бы можно было быавтоматически выявлять содержательную структуру связного текста.

Среди них такиеприложения как автоматическое сегментирование текстов, разрешение многозначности,собственно информационный поиск, более качественное определение весов термов вдокументе, рубрикация текстов, автоматическое аннотирование текстов и др.Понятие связности текста может быть рассмотрено в нескольких аспектах.Выделяют когезию или структурную связность и когерентность текста 1.Фактически речь идет о внутренней (структурной) и внешней (прагматической) связности.Когезией называется связь элементов текста, при которой интерпретация одних элементовтекста зависит от других (Кронгауз, 2001). Когерентностью называется связность,привносимая чем-то внешним по отношению к тексту, прежде всего знаниями егоадресата. На основании этих знаний адресат может конструировать определенныйожидания и достраивать связи, отсутствующие в тексте в явном виде (Гальперин, 1981,Morris, Hirst, 1991, Кронгауз, 2001, Шевченко, 2003).С другой точки зрения выделяют глобальную и локальную связность текста.Глобальная связность текста обеспечивается тем, что у текста имеется единая тема.Локальная связность дискурса проявляется во взаимосвязимежду соседнимиминимальными единицами текста (Ван Дейк, Кинч, 1988; van Dijk, 1985).В следующем разделе мы рассмотрим некоторые положения теории связноготекста.

Не претендуя на исчерпывающий обзор подходов и моделей к анализу связноготекста, мы, прежде всего, будем обращать внимание на те свойства связного текста,которые поддаются компьютерному моделированию в настоящее время.14.1. Типы связности в связном тексте и их моделирование14.1.1. Тематическая структура и тематическая связность текстаОпределение основной темы текста является важным этапом для многихприложений информационного поиска. Понятие основной (или глобальной) темы текстасвязано с такими свойствами текста как тематическая связность и тематическая структура.Текст может быть формально связным посредством различных типов связности, но если унего нет единой темы, то он не может рассматриваться как текст (Севбо, 1969).(Tomlin, 1997) указывает на различие трактовки термин глобальная тема у разныхавторов.

Этот термин может относиться к наиболее центральному участнику ситуации,описываемой в тексте. Также термин глобальная тема относится к тому, чему посвященвесь текст – и тогда глобальная тема скорее пропозиция, а не именная группа.(Brown, Yule, 2001) предлагают называть главный персонаж, объект, идеютермином «тематический элемент» (topic entity) и отделять понятие тематическогоэлемента от термина глобальная тема текста.

Именно так мы и будем употреблятьтермины главная (или основная) тема документа и тематический элемент или элементглавной темы документа.1В лингвистической литературе при обсуждении проблемы связности , структуры текста употребляют термин «дискурс».191Гипотеза, лежащая в основе многих работ, заключается в том, что содержаниетекста может быть представлено в виде иерархической структуры пропозиций (Новиков,1983; Шевченко, 2003; Гальперин, 1984; Van Dijk, 1985; Tomlin, 1997; Жинкин, 1958),самая верхняя пропозиция собственно и представляет собой основную тему документа, апропозиции нижних уровней представляют собой локальные или побочные темыдокумента.Ван Дейк (Van Dijk, 1985) описывает тематическую структуру текста,макроструктуру как иерархическую структуру в том смысле, что тема целого текстаможет быть описана как единственная макропропозиция. Тема целого текста может бытьохарактеризована в терминах подтем, а подтемы в терминах еще более локальных подтем.Каждое предложение текста соответствует той или иной подтеме иерархическойструктуры текста.Макроструктура текста определяет его глобальную связность.

«Без такойглобальной связности, невозможно было бы осуществлять контроль за локальнымисвязями (local connections and continuations). Предложения могут быть хорошо связаннымимежду собой в соответствии с критериями локальной связности, но они могли быотклониться в сторону, если бы не было глобальных ограничений на их содержание» (VanDijk, 1985, стр.115-116).Мы уже упоминали, что учет иерархической структуры текста имеет сложностидаже при ручной обработке текстов экспертами.

Так, при ручном индексировании илирубрицировании документов (см. разделы 1.5, 13.3.1.) разная трактовка побочных темдокумента разными экспертами является одним из существенных факторовсубъективности этих процессов.При автоматической обработке документов важность слова или термина длясодержания текста, их близость к основной теме документа оценивается с помощьюспециальных весов. Предполагается, что чем выше в иерархии тематической структурыупомянуто слово или термин, чем ближе они к основной теме документа, тем большедолжна быть величина присвоенного веса.Самой простой характеристикой моделирующей такой вес естественно являетсявеличина частоты употребления слова (термина) в документе, а также различные еемодификации.

Более сложные модели автоматического выявления тематическойструктуры текста связаны с такими видами связности как риторическая связность текста икогезия, которые мы рассмотрим в следующих разделах.14.1.2. Риторическая структура и риторическая связность текстаКаждый текст создается автором с некоторой целью. Цель написания каждоговысказывания текста некоторым образом соотносится с предыдущими высказываниями ицелью написания всего текста в целом. Таким образом, моделирование риторическойсвязности состоит в том, чтобы определить, как конкретное предложение соотносится спредыдущими предложениями, что формализуется установлением некоторого набораотношений между парами предложений.Одним из наиболее известных подходов к риторической связности текста являетсятеория риторических структур (РСТ) (Mann, Thompson, 1987).

Теория риторическихструктур основана на предположении о том, что любая единица текста связана хотя бы содной другой единицей данного текста посредством некоторой осмысленной связи. Такиесвязи называются риторическими отношениями.Риторические отношения могут быть симметричными и несимметричными.Примерами симметричных отношений являются такие отношения как сравнение, отличие.Примерами несимметричных отношений являются такие отношения как уступка, условие,последовательность и др., Например, в предложении «1) Иван опоздал на работу, 2)потому что он попал в пробку» между двумя клаузами имеет место риторическое192отношение причины.

При несимметричном риторическом отношении главная клаузаназывается ядром, а зависимая клауза называется сателлитом.Было предложено множество наборов риторических отношений, включающих всебя от нескольких отношений до нескольких сотен отношений (Hovy, Maier, 1995).Многие подходы предполагают, что совокупность риторических отношений текстаобразуют структуру в виде дерева (Кибрик, 2003; Carson и др., 2003; Marcu 2000; Mann,Thompson, 1987; Cristea и др., 1998; Литвиненко, 2001). В узлах дерева размещаются типыотношений между предложениями, например, такие, как elaboration – уточнение илиcontrast - противопоставление (см. рис.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6553
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее