Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 84
Текст из файла (страница 84)
Запрос необходиморасширять. Из формулировки извлекается понятие ТУРИСТИЧЕСКАЯ ФИРМА,являющееся вышестоящим понятием для понятия ТУРАГЕНТ, и вносится всоответствующую дизъюнкцию, получается такой запрос:(ТУРАГЕНТ OR ТУРИСТИЧЕСКАЯ ФИРМА)AND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ)В результате выполнения такого запроса находится 16 документов.
Запроснеобходимо расширять дальше. Такую возможность дает информер, сформированный попоследнему булевскому запросу. На седьмом месте самых характерных понятий дляданной выдачи находится понятие САНАТОРИЙ, который является видом понятияОЗДОРОВИТЕЛЬНОГО УЧРЕЖДЕНИЕ, и, таким образом, пополняется соответствующаядизъюнкция. Получается следующий булевский запрос:(ТУРАГЕНТ OR ТУРИСТИЧЕСКАЯ ФИРМА)AND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ OR САНАТОРИЙ)Выдача данного запроса содержит 22 документа, и запрос опять можно уточнять.В результате последовательности шагов работы алгоритма было сформированоследующее булевское выражение:(ТУРАГЕНТТУРИСТИЧЕСКАЯ ФИРМАТУРИСТИЧЕСКИЙ СЕРВИСOROROR313ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬАГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ)ORORORAND(ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСАНАТОРИЙДОМ ОТДЫХАОТДЫХПРОФИЛАКТОРИЙДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСТОРОННЯЯ ОРГАНИЗАЦИЯ)ORORORORORORAND(САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕСАНАТОРНО-КУРОРТНАЯ ПУТЕВКАЗДРАВООХРАНЕНИЕЛЕЧЕНИЕ)ORORORAND(НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ)AND(НАЛОГОВОЕ ОСВОБОЖДЕНИЕНАЛОГОВАЯ СЛУЖБА)ORПо этому запросу был найден 51 документ.ПомимопонятийТезауруса,найденныхвисходнойформулировке,феноменологическая модель добавила в булевское выражение следующие понятия:-ТУРИСТИЧЕСКИЙ СЕРВИС,ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ,ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ,САНАТОРИЙ,ДОМ ОТДЫХА,ОТДЫХ,ПРОФИЛАКТОРИЙДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕСАНАТОРНО-КУРОРТНАЯ ПУТЕВКА,ЗДРАВООХРАНЕНИЕ,ЛЕЧЕНИЕ20.5.2.3 Применение феноменологической моделиЗнания, описанные в тезаурусе, не могут быть полными, и в очереднойформулировке запроса могут потребоваться знания, не отраженные в тезаурусе.
Поэтомуфеноменологическая модель не применяется отдельно, а входит в состав многошаговоймодели, описанной в разделе 20.4.Феноменологическая модель работает после комбинированной векторной модели.Найденные в формулировке понятия тезауруса упорядочиваются по количествудокументов, в которых они упоминаются в этих 100 документах для работыфеноменологической модели. Таким образом, предполагается, что булевские запросыфеноменологической модели будут строиться на понятиях тезауруса, которые наиболеечасто упоминаются в связи друг с другом.314В результате работы модели и исполнения построенных булевских запросов«копилка» документов для дальнейшего анализа пополняется дополнительнымидокументами.
Кроме того, в процессе своей работы феноменологическая модельрасширяет запрос понятиями тезауруса, которые не были упомянуты в запросе, и этидополнительные понятия будут также придавать дополнительный вес найденнымдокументам.Суть дальнейшего анализа документов заключается в том, чтобы дополнительнопроанализировать все найденные на предыдущих этапах документы (100 документов отсмешенной векторной модели и 30-100 документов от феноменологической модели).Наилучшими считаются документы, в которых максимальное число найденных элементовзапроса, найдено в 2 парах соседних предложений документа (см. раздел 20.4).Формула предложения (20.7) дополняется еще и весом понятий тезауруса, которыене были упомянуты в формулировке запроса, но были получены в процессе расширенияпо феноменологической модели.
Таким образом, вес отдельного предложениявычисляется следующим образом по сравнению с формулой в разделе 20.4:Ws = α2 Σ wwordi + (1- α2) Σ wconcj+ α3 Σwexp(20.7)где wwordi, wconcj – веса слов и концептов из исходной формулировки, wexp – это веспонятия тезауруса, которого не было в исходной формулировке, но который был добавленв расширенный запрос на этапе работы феноменологической модели:wexp (Ci) = idf (Ci)«Усиленный» вес за счет дополнительных предложений считается так, как описано вразделе 21.4, в дополнительных предложениях также учитываются дополнительнополученные понятия тезауруса.Как и указывалось в разделе 20.4, полученный вес предложения замешивается сисходным весом предложения, полученным по векторной модели первого этапа.Таким образом, выполнение феноменологической модели дает возможность привлечьдополнительное число документов для последующего анализа, и, кроме того, учесть веспонятий, полученных как расширение булевского запроса.Качество комбинированной модели, включая феноменологическую модель,тестировалось на 165 запросах типа «формулировка проблемы» в юридической областиэкспертами-юристами на коллекции документов, отвечающих на такие вопросы (40 тысячдокументов).
Оценка производилась по показателю точности по первым пяти документам- precision (5). В результате было получено, что показатель precision (5) для алгоритма,использующего тезаурусные знания и феноменологическую модель, более чем на 12%превышает работу лучшего алгоритма, работающего только на основе слов (векторнаямодель + упорядочение по предложениям + замешивание полученных весов).Заключение к главе 20Применение тезауруса РуТез в задаче поиска документов, основанное только натезаурусных описаниях, может оказаться не лучше применения пословных моделей (из-завозможных проблем нехватки информации в тезаурусе, неточности описаний, проблемразрешения многозначности и др.).
Однако гибкое сочетание качественной пословноймодели и знаний, описанных в РуТез, дает улучшение качества на 10-15 процентов.Поэтому тезаурусные технологии не должны противопоставляться современнымтехнологиям пословной обработки текстов, а органично учитывать последние достиженияв этой сфере. При учете таких условий применение тезаурусов может дать улучшениекачества решения задачи по сравнению с лучшими пословными методами.315Глава 21. Тезаурус РуТез как ресурс для автоматической рубрикации текстов21.1. Технология автоматического рубрицирования на основе тезаурусаКак уже указывалось в разделе 13.1, существуют два основных подхода кавтоматическому рубрицированию документов – инженерный подход и подход на основемашинного обучения.
Традиционным нашим подходом в сфере автоматическойрубрикации является инженерный подход, в котором содержание рубрики описываетсякак булевское выражение над понятиями Общественно-политического тезауруса.Текущий рубрикатор связывается с Тезаурусом посредством небольшого числа опорныхпонятий, рубрики остальных понятий тезауруса выводятся по связям внутри Тезауруса,тем самым при описании очередного рубрикатора используется большой объемнакопленных в тезаурусе знаний.Процедура рубрикации базируется на автоматически построенном тематическомпредставлении документов, которое моделирует основную тему и подтемы документанаборами (тематическими узлами) близких по смыслу понятий, упомянутых в документе.Такая основа рубрикации дает возможность обрабатывать тексты разных типов иразмеров: нормативные акты, газетные статьи, новостные сообщения,научныепубликации в области гуманитарных наук, социологические опросы (Лукашевич 1996;Добров, Лукашевич, 2002a; .Агеев и др., 2008).Посредством такой технологии рубрикации были разработаны более 15 системавтоматической рубрикации, в частности, такие системы рубрикации как:- рубрикация законодательных актов по Классификатору правовых актов РФ –1169 рубрик,- рубрикация научных статей по экономике по рубрикатору JEL (ссылка – 700рубрик),- рубрикация по правовому классификатору Центральной избирательнойкомиссии (450 рубрик, 4 уровня),- рубрикация социологических опросов по рубрикатору (300 рубрик) и др.В следующих разделах рассмотрим подробнее особенности реализации системавтоматической рубрикации на основе тезауруса и тематического представлениядокументов.21.2.
Описание смысла рубрики понятиями тезаурусаПри создании лингвистического профиля рубрикатора каждая рубрика Rописывается дизъюнкцией альтернатив, каждый дизъюнкт представляет собойконъюнкцию:R Dii;Di Kijj,(21.1)Конъюнкты в свою очередь описываются экспертами с помощью так называемых«опорных» понятий тезауруса. Для каждого опорного понятия задается правило егорасширения f(·), определяющее, каким образом вместе с опорным понятием учитыватьподчиненные ему по иерархии понятия: без расширения (обозначается символом «N»),полное расширение по дереву иерархии тезауруса (символ «E»), расширение только породовидовым связям (символ «L»), расширение по всем видам отношений на одинуровень иерархии (символ «W»), расширение на один уровень иерархии, не включаяотношения НИЖЕ (символ «V»).Опорное понятие может быть как «положительным», то есть добавлятьнижерасположенные понятия в описание конъюнкта, так и «отрицательным», то естьвырезать из описания рубрики свои подчиненные понятия.
Последовательность учета316положительных и отрицательных опорных понятий регулируется заданием специальногоатрибута. Результатом применения расширения опорных понятий является совокупностьпонятий тезауруса, полностью описывающая конъюнкт:Kij f m (cijm ) \ f n (eijn ) dijkmnk.(21.2)Отметим, что для рубрикаторов простой структуры, когда рубрики разделяютпространство предметной области на непересекающиеся части, часто возможнообходиться случаем одной альтернативы (одного дизъюнкта) и одного конъюнкта, приэтом роль отрицательных опорных понятий может выражать специальная «нулевая»рубрика, задача которой «выедать» ненужные понятия.Рассмотрим фрагмент представления рубрики 200.020.020 «Встречи на высшемуровне» из Классификатора правовых актов РФ ((Указ, 2000), более 1000 рубрик).Языковые выражения, записанные курсивом, выводятся на основе исходного описаниярубрики автоматически (рис.21.1):Рис.21.1.