Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 84

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 84 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 842020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 84)

Запрос необходиморасширять. Из формулировки извлекается понятие ТУРИСТИЧЕСКАЯ ФИРМА,являющееся вышестоящим понятием для понятия ТУРАГЕНТ, и вносится всоответствующую дизъюнкцию, получается такой запрос:(ТУРАГЕНТ OR ТУРИСТИЧЕСКАЯ ФИРМА)AND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ)В результате выполнения такого запроса находится 16 документов.

Запроснеобходимо расширять дальше. Такую возможность дает информер, сформированный попоследнему булевскому запросу. На седьмом месте самых характерных понятий дляданной выдачи находится понятие САНАТОРИЙ, который является видом понятияОЗДОРОВИТЕЛЬНОГО УЧРЕЖДЕНИЕ, и, таким образом, пополняется соответствующаядизъюнкция. Получается следующий булевский запрос:(ТУРАГЕНТ OR ТУРИСТИЧЕСКАЯ ФИРМА)AND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ OR САНАТОРИЙ)Выдача данного запроса содержит 22 документа, и запрос опять можно уточнять.В результате последовательности шагов работы алгоритма было сформированоследующее булевское выражение:(ТУРАГЕНТТУРИСТИЧЕСКАЯ ФИРМАТУРИСТИЧЕСКИЙ СЕРВИСOROROR313ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬАГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ)ORORORAND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСАНАТОРИЙДОМ ОТДЫХАОТДЫХПРОФИЛАКТОРИЙДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСТОРОННЯЯ ОРГАНИЗАЦИЯ)ORORORORORORAND(САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕСАНАТОРНО-КУРОРТНАЯ ПУТЕВКАЗДРАВООХРАНЕНИЕЛЕЧЕНИЕ)ORORORAND(НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ)AND(НАЛОГОВОЕ ОСВОБОЖДЕНИЕНАЛОГОВАЯ СЛУЖБА)ORПо этому запросу был найден 51 документ.ПомимопонятийТезауруса,найденныхвисходнойформулировке,феноменологическая модель добавила в булевское выражение следующие понятия:-ТУРИСТИЧЕСКИЙ СЕРВИС,ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ,ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ,САНАТОРИЙ,ДОМ ОТДЫХА,ОТДЫХ,ПРОФИЛАКТОРИЙДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСАНАТОРНО-КУРОРТНАЯ ПУТЕВКА,ЗДРАВООХРАНЕНИЕ,ЛЕЧЕНИЕ20.5.2.3 Применение феноменологической моделиЗнания, описанные в тезаурусе, не могут быть полными, и в очереднойформулировке запроса могут потребоваться знания, не отраженные в тезаурусе.

Поэтомуфеноменологическая модель не применяется отдельно, а входит в состав многошаговоймодели, описанной в разделе 20.4.Феноменологическая модель работает после комбинированной векторной модели.Найденные в формулировке понятия тезауруса упорядочиваются по количествудокументов, в которых они упоминаются в этих 100 документах для работыфеноменологической модели. Таким образом, предполагается, что булевские запросыфеноменологической модели будут строиться на понятиях тезауруса, которые наиболеечасто упоминаются в связи друг с другом.314В результате работы модели и исполнения построенных булевских запросов«копилка» документов для дальнейшего анализа пополняется дополнительнымидокументами.

Кроме того, в процессе своей работы феноменологическая модельрасширяет запрос понятиями тезауруса, которые не были упомянуты в запросе, и этидополнительные понятия будут также придавать дополнительный вес найденнымдокументам.Суть дальнейшего анализа документов заключается в том, чтобы дополнительнопроанализировать все найденные на предыдущих этапах документы (100 документов отсмешенной векторной модели и 30-100 документов от феноменологической модели).Наилучшими считаются документы, в которых максимальное число найденных элементовзапроса, найдено в 2 парах соседних предложений документа (см. раздел 20.4).Формула предложения (20.7) дополняется еще и весом понятий тезауруса, которыене были упомянуты в формулировке запроса, но были получены в процессе расширенияпо феноменологической модели.

Таким образом, вес отдельного предложениявычисляется следующим образом по сравнению с формулой в разделе 20.4:Ws = α2 Σ wwordi + (1- α2) Σ wconcj+ α3 Σwexp(20.7)где wwordi, wconcj – веса слов и концептов из исходной формулировки, wexp – это веспонятия тезауруса, которого не было в исходной формулировке, но который был добавленв расширенный запрос на этапе работы феноменологической модели:wexp (Ci) = idf (Ci)«Усиленный» вес за счет дополнительных предложений считается так, как описано вразделе 21.4, в дополнительных предложениях также учитываются дополнительнополученные понятия тезауруса.Как и указывалось в разделе 20.4, полученный вес предложения замешивается сисходным весом предложения, полученным по векторной модели первого этапа.Таким образом, выполнение феноменологической модели дает возможность привлечьдополнительное число документов для последующего анализа, и, кроме того, учесть веспонятий, полученных как расширение булевского запроса.Качество комбинированной модели, включая феноменологическую модель,тестировалось на 165 запросах типа «формулировка проблемы» в юридической областиэкспертами-юристами на коллекции документов, отвечающих на такие вопросы (40 тысячдокументов).

Оценка производилась по показателю точности по первым пяти документам- precision (5). В результате было получено, что показатель precision (5) для алгоритма,использующего тезаурусные знания и феноменологическую модель, более чем на 12%превышает работу лучшего алгоритма, работающего только на основе слов (векторнаямодель + упорядочение по предложениям + замешивание полученных весов).Заключение к главе 20Применение тезауруса РуТез в задаче поиска документов, основанное только натезаурусных описаниях, может оказаться не лучше применения пословных моделей (из-завозможных проблем нехватки информации в тезаурусе, неточности описаний, проблемразрешения многозначности и др.).

Однако гибкое сочетание качественной пословноймодели и знаний, описанных в РуТез, дает улучшение качества на 10-15 процентов.Поэтому тезаурусные технологии не должны противопоставляться современнымтехнологиям пословной обработки текстов, а органично учитывать последние достиженияв этой сфере. При учете таких условий применение тезаурусов может дать улучшениекачества решения задачи по сравнению с лучшими пословными методами.315Глава 21. Тезаурус РуТез как ресурс для автоматической рубрикации текстов21.1. Технология автоматического рубрицирования на основе тезаурусаКак уже указывалось в разделе 13.1, существуют два основных подхода кавтоматическому рубрицированию документов – инженерный подход и подход на основемашинного обучения.

Традиционным нашим подходом в сфере автоматическойрубрикации является инженерный подход, в котором содержание рубрики описываетсякак булевское выражение над понятиями Общественно-политического тезауруса.Текущий рубрикатор связывается с Тезаурусом посредством небольшого числа опорныхпонятий, рубрики остальных понятий тезауруса выводятся по связям внутри Тезауруса,тем самым при описании очередного рубрикатора используется большой объемнакопленных в тезаурусе знаний.Процедура рубрикации базируется на автоматически построенном тематическомпредставлении документов, которое моделирует основную тему и подтемы документанаборами (тематическими узлами) близких по смыслу понятий, упомянутых в документе.Такая основа рубрикации дает возможность обрабатывать тексты разных типов иразмеров: нормативные акты, газетные статьи, новостные сообщения,научныепубликации в области гуманитарных наук, социологические опросы (Лукашевич 1996;Добров, Лукашевич, 2002a; .Агеев и др., 2008).Посредством такой технологии рубрикации были разработаны более 15 системавтоматической рубрикации, в частности, такие системы рубрикации как:- рубрикация законодательных актов по Классификатору правовых актов РФ –1169 рубрик,- рубрикация научных статей по экономике по рубрикатору JEL (ссылка – 700рубрик),- рубрикация по правовому классификатору Центральной избирательнойкомиссии (450 рубрик, 4 уровня),- рубрикация социологических опросов по рубрикатору (300 рубрик) и др.В следующих разделах рассмотрим подробнее особенности реализации системавтоматической рубрикации на основе тезауруса и тематического представлениядокументов.21.2.

Описание смысла рубрики понятиями тезаурусаПри создании лингвистического профиля рубрикатора каждая рубрика Rописывается дизъюнкцией альтернатив, каждый дизъюнкт представляет собойконъюнкцию:R   Dii;Di  Kijj,(21.1)Конъюнкты в свою очередь описываются экспертами с помощью так называемых«опорных» понятий тезауруса. Для каждого опорного понятия задается правило егорасширения f(·), определяющее, каким образом вместе с опорным понятием учитыватьподчиненные ему по иерархии понятия: без расширения (обозначается символом «N»),полное расширение по дереву иерархии тезауруса (символ «E»), расширение только породовидовым связям (символ «L»), расширение по всем видам отношений на одинуровень иерархии (символ «W»), расширение на один уровень иерархии, не включаяотношения НИЖЕ (символ «V»).Опорное понятие может быть как «положительным», то есть добавлятьнижерасположенные понятия в описание конъюнкта, так и «отрицательным», то естьвырезать из описания рубрики свои подчиненные понятия.

Последовательность учета316положительных и отрицательных опорных понятий регулируется заданием специальногоатрибута. Результатом применения расширения опорных понятий является совокупностьпонятий тезауруса, полностью описывающая конъюнкт:Kij  f m (cijm ) \  f n (eijn )   dijkmnk.(21.2)Отметим, что для рубрикаторов простой структуры, когда рубрики разделяютпространство предметной области на непересекающиеся части, часто возможнообходиться случаем одной альтернативы (одного дизъюнкта) и одного конъюнкта, приэтом роль отрицательных опорных понятий может выражать специальная «нулевая»рубрика, задача которой «выедать» ненужные понятия.Рассмотрим фрагмент представления рубрики 200.020.020 «Встречи на высшемуровне» из Классификатора правовых актов РФ ((Указ, 2000), более 1000 рубрик).Языковые выражения, записанные курсивом, выводятся на основе исходного описаниярубрики автоматически (рис.21.1):Рис.21.1.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее