Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 85
Текст из файла (страница 85)
Расширенное представление рубрики понятиями тезаурусаВажным атрибутом описания рубрики является пометка о необходимости«подтверждения». Понятия, требующие подтверждения, не могут самостоятельновыводить рубрику, но могут усиливать эту рубрику, если в тексте встречаются понятия, нетребующие подтверждения.
Например, если в тексте говорится о конфликте двухпенсионеров в очереди, еще не должна выводиться рубрика «Пенсионное обеспечение»,так как здесь используется только одно свойство понятия ПЕНСИОНЕР - как гражданинпреклонного возраста. В нашем описании понятие ПЕНСИОНЕР должно иметь пометку оподтверждении для данной рубрики. Однако, если дополнительно в тексте будет сказано,что конфликт произошел из-за маленькой пенсии, низкого жизненного уровня и т.п., торубрика должна выводиться, причем наличие понятия ПЕНСИОНЕР должно усиливатьвес данной рубрики.По умолчанию пометка подтверждения устанавливается для понятия dijk, если налюбом пути от положительного опорного понятия, которому соответствует dijk , имеетсяпометка на отношении (см.п.17.6). При этом эксперт, описывающий рубрику, можетзадать/снять пометку подтверждения вручную, что распространится на всенижерасположенные понятия.317Следует подчеркнуть, что в данной методологии достаточно хранить толькоопорные понятия, а также понятия, у которых изменен атрибут подтверждения, полное жеописание рубрики может быть каждый раз пересчитано заново при изменении тезауруса.Типичные цифры о параметрах описания: на одну рубрику рубрикатора в среднемприходится 1-2 дизъюнкта, 2-3 конъюнкта, 4-8 опорных понятия, 50-100 понятий полногоописания, то есть 100-250 текстовых выражений.21.3.
Автоматическое рубрицирование на основе тематического представленияКак отмечалось в предыдущем разделе, рубрика представляется в виде логическогоусловия над понятиями тезауруса:R Dii i K ij i jj d ijk k.(21.3)Таким образом, оценка релевантности содержания текста рубрике (вес рубрики)может быть рассчитана на основе информации о весах понятий в тексте, входящих в ееописание.Вес конъюнкта рассчитывается по формуле: ( Kij ) min 1.0; max (dijk ), ( pijm ) ,(21.4)где dijk понятия, не требующие подтверждения, pijm – понятия, требующиеподтверждения, - множитель равный единице, если имеются понятия, не требующиеподтверждения, и нулю иначе.Вес дизъюнкта предназначен учитывать не только сумму весов составляющих егоконъюнктов, но и меру близости конъюнктов в тексте:m ( Kij ) ( Di ) здесь S ( Kij , Kik ) min{1.0; S ( Kij , Kik )j k,C 2mj 1m s(cijq Kij , dikw Kij )max s(c D, d D)(21.5)}- сумма всех текстовых связей между понятиями одного конъюнкта и понятиямидругого, деленная на значение максимальной текстовой связи между любыми двумяпонятиями текста.
Этот член равен обычно единице для сильно связанных конъюнктов ипринимает малое значение, если понятия различных конъюнктов обсуждались в разныхместах текста.Вес рубрики представляет собой максимум весов входящих в описание рубрикиальтернатив. В случае имеющихся иерархических связей между рубриками оценкарелевантности нижестоящих рубрик переносится на вышестоящие. Так что при запросе повышестоящей рубрике будут выходить и документы, к которым были приписанынижестоящие рубрики.Алгоритм рубрицирования работает следующим образом. Для всех понятийтезауруса, найденных в тексте, определяется множество рубрик, которые могут бытьопределены в тексте. Для каждой рубрики происходит расчет ее веса по формулам (21.4)и (21.5).
В результирующем множестве остаются рубрики, вес которых превосходитзадаваемый заранее для коллекции порог.318Применение описанной технологии для нескольких систем рубрикации дляразличных текстовых коллекций показали, что описание рубрикатора посредствомопорных понятий служит и как основа для соответствующих организационных решений:- является прообразом свободного от субъективизма комментария к рубрикатору,который может пополняться и уточняться;- при выводе рубрики всегда можно показать/объяснить, почему была выведената или иная рубрика, что позволяет быстро уточнять описание рубрик,анализируя замеченные ошибки рубрикации.21.4.
Использование информеров для составления описаний рубрик приинженерном подходе рубрикацииОдним из недостатков инженерного подхода к рубрикации часто указываетсясложность использования коллекций, отрубрицированных вручную, в качествеобучающей коллекции. Эта проблема становится особенно важной, если предполагаетсярубрикация по рубрикатору сложной структуры, и имеется множество различных неявныхправил отнесения/неотнесения документа к рубрике.В таких случаях улучшить и убыстрить построение формул рубрик помогаютинформеры УИС Россия (см. п. 20.2). Полученная отрубрицированная коллекциядокументов загружается в поисковую систему, причем предоставляется возможностьпоиска по проставленным экспертами рубрикам.
Выполняя запрос на поиск документовпо той или иной рубрике, можно в информере получать и анализировать совокупностинаиболее характерных понятий тезауруса для этой рубрики, что помогает составитьформулу рубрики.Опишем алгоритм работы специалиста по рубрикации для решения различныхзадач поддержки рубрицирования по сложному рубрикатору с использованиеминформеров.123Рис.21.2. Использование информеров УИС РОССИЯ для интерактивного уточненияописания рубрики. (1) окно условий запроса; (2) тематический информер;(3) «ссылки-кнопки» для оперативного добавления условия в запрос319Для того, что составить для рубрики терминологическое описание, необходимовыявить элементарные смыслы рубрики, найти, какими терминами эти смыслы могутвыражаться. Далее необходимо записать булевское выражение, в котором термины,выражающие разные составляющие смыслы рубрики, будут соединяться конъюнкцией, атермины, выражающие один и тот же смысл дизъюнкцией.Для нахождения соответствующих понятий удобно использовать информеры УИСРОССИЯ.
Рассмотрим «модельную» рубрику «Особенности исчисления акцизов приимпорте». Выполняем поиск по рубрике – получаем набор документов, отнесенных крубрике экспертами.Каждый текст, относящийся к этой рубрике, должен содержать термины,относящиеся к сфере импорта, и термины, относящиеся к сфере акцизов.Выбираем из правой колонки понятия, относящиеся к акцизам: ПОДАКЦИЗНЫЙТОВАР, АКЦИЗ, МАРКА АКЦИЗНОГО СБОРА. Удаляем из выдачи документы,содержащие эти понятия, чтобы определить, какие еще термины могут относиться к сфереакцизов.Собираем теперь понятия, относящиеся к импорту. Возвращаемся к запросу порубрике. Изучаем правую колонку – имеется понятия ИМПОРТ. Удаляем документы,включающие этот термин, из выдачи.Информер больше понятий не дает. Начинаем изучать оставшиеся тексты.
Втекстах содержатся слова ввоз, ввезти, ввозить, ввозной. Убираем эти документы –остается 43 документа.В правой колонке появились понятия ТАМОЖЕННАЯ ПОШЛИНА,ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВ, ГОСУДАРСТВЕННЫЙ ТАМОЖЕННЫЙКОМИТЕТ. В сочетании с акцизами эти понятия должны указывать на импорт.Таким образом, мы получили формулу:(ПОДАКЦИЗНЫЙ ТОВАР или АКЦИЗ или МАРКА АКЦИЗНОГО СБОРА)и(ИМПОРТили ВВОЗили ТАМОЖЕННАЯ ПОШЛИНАили ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВили ТАМОЖЕННЫЙ КОМИТЕТ)На каждом шаге происходит контроль оставшегося количества документов,процесс уточнения формулы прекращается, если достигнут требуемый уровень ошибки.Если название рубрики выглядит как состоящее из одного термина, то это часто неозначает, что достаточно упоминания этого термина в тексте, чтобы присвоить текстурубрику.
Часто такой текст должен обсуждать какие-то значимые для данного понятиячасти, свойства и ситуации.Так, тексты в рубрике «Общества с ограниченной и с дополнительнойответственностью» должны содержать не только термины общество с ограниченнойответственностью или общество с дополнительной ответственностью, но иобсуждать такие важнейшие аспекты для этих организаций, как создание, регистрация,учредители, уставный капитал, собственность и т.п.Таким образом, реально рубрика также разлагается на два элементарных смысла,тот что назван в формулировке и что-то вроде «общие вопросы», и описывать рубрикунужно в виде конъюнкции двух частей. Понятия, которые нужно включить во вторуючасть конъюнкции, т.е.
те которые важны для функционирования первой части, могутбыть набраны из информера. Для упомянутой рубрики на правой панели мы увидим:УСТАВНЫЙ КАПИТАЛ, УЧРЕДИТЕЛЬ, РЕГИСТРАЦИЯ ЮРИДИЧЕСКИХ ЛИЦ, СОВЕТДИРЕКТОРОВ.320Таким образом, в сложных задачах рубрикации существенным становитсявзаимодействие с экспертами, так как единственным способом решения задачирубрикации является итерационное уточнение правил рубрицирования.Для этих целей можно применять методы, основанные на знаниях, которыепозволяют легко интерпретировать, почему такой-то документ был отнесен к рубрике.Основным недостатком этих методов является высокая трудоемкость, обусловленнаянеобходимостью привлечения экспертов для составления таких правил. Однако,представляется, что это неизбежно, поскольку в реальных задачах рубрикации отмеченазначительная непоследовательность исходных данных ручной рубрикации (см.п.13.3.1.).21.5. Эксперимент по автоматической рубрикации текстов врамках семинара РОМИП 2007Опишем результаты работы системы автоматического рубрицирования,основанной на тезаурусных знаниях в задаче классификации Web-страниц в рамкахсеминара РОМИП 2007 (Агеев и др., 2008a).
Исходный набор данных включал в себяколлекцию страниц с сайтов белорусского интернета BY.web и коллекцию DMOZ,используемую в качестве обучающего множества. Обучающее множество состоит изсайтов, но не обязательно все страницы сайта относятся к одной теме. Рубрикациядолжна была быть выполнена для 247 рубрик рубрикатора DMOZ.При выполнении данного эксперимента была поставлена задача выяснения,сколько времени нужно потратить на описание заданных рубрик с использованием изинформации из тезауруса, и каких показателей качества рубрицирования можнодостигнуть.Работа по описанию 247 рубрик задания была выполнена за 8 часов рабочеговремени.