Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 85

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 85 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 852020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 85)

Расширенное представление рубрики понятиями тезаурусаВажным атрибутом описания рубрики является пометка о необходимости«подтверждения». Понятия, требующие подтверждения, не могут самостоятельновыводить рубрику, но могут усиливать эту рубрику, если в тексте встречаются понятия, нетребующие подтверждения.

Например, если в тексте говорится о конфликте двухпенсионеров в очереди, еще не должна выводиться рубрика «Пенсионное обеспечение»,так как здесь используется только одно свойство понятия ПЕНСИОНЕР - как гражданинпреклонного возраста. В нашем описании понятие ПЕНСИОНЕР должно иметь пометку оподтверждении для данной рубрики. Однако, если дополнительно в тексте будет сказано,что конфликт произошел из-за маленькой пенсии, низкого жизненного уровня и т.п., торубрика должна выводиться, причем наличие понятия ПЕНСИОНЕР должно усиливатьвес данной рубрики.По умолчанию пометка подтверждения устанавливается для понятия dijk, если налюбом пути от положительного опорного понятия, которому соответствует dijk , имеетсяпометка на отношении (см.п.17.6). При этом эксперт, описывающий рубрику, можетзадать/снять пометку подтверждения вручную, что распространится на всенижерасположенные понятия.317Следует подчеркнуть, что в данной методологии достаточно хранить толькоопорные понятия, а также понятия, у которых изменен атрибут подтверждения, полное жеописание рубрики может быть каждый раз пересчитано заново при изменении тезауруса.Типичные цифры о параметрах описания: на одну рубрику рубрикатора в среднемприходится 1-2 дизъюнкта, 2-3 конъюнкта, 4-8 опорных понятия, 50-100 понятий полногоописания, то есть 100-250 текстовых выражений.21.3.

Автоматическое рубрицирование на основе тематического представленияКак отмечалось в предыдущем разделе, рубрика представляется в виде логическогоусловия над понятиями тезауруса:R   Dii i K ij    i jj  d ijk k.(21.3)Таким образом, оценка релевантности содержания текста рубрике (вес рубрики)может быть рассчитана на основе информации о весах понятий в тексте, входящих в ееописание.Вес конъюнкта рассчитывается по формуле: ( Kij )  min 1.0; max  (dijk ),   ( pijm ) ,(21.4)где dijk понятия, не требующие подтверждения, pijm – понятия, требующиеподтверждения,  - множитель равный единице, если имеются понятия, не требующиеподтверждения, и нулю иначе.Вес дизъюнкта предназначен учитывать не только сумму весов составляющих егоконъюнктов, но и меру близости конъюнктов в тексте:m ( Kij ) ( Di ) здесь S ( Kij , Kik )  min{1.0; S ( Kij , Kik )j k,C 2mj 1m s(cijq  Kij , dikw  Kij )max s(c  D, d  D)(21.5)}- сумма всех текстовых связей между понятиями одного конъюнкта и понятиямидругого, деленная на значение максимальной текстовой связи между любыми двумяпонятиями текста.

Этот член равен обычно единице для сильно связанных конъюнктов ипринимает малое значение, если понятия различных конъюнктов обсуждались в разныхместах текста.Вес рубрики представляет собой максимум весов входящих в описание рубрикиальтернатив. В случае имеющихся иерархических связей между рубриками оценкарелевантности нижестоящих рубрик переносится на вышестоящие. Так что при запросе повышестоящей рубрике будут выходить и документы, к которым были приписанынижестоящие рубрики.Алгоритм рубрицирования работает следующим образом. Для всех понятийтезауруса, найденных в тексте, определяется множество рубрик, которые могут бытьопределены в тексте. Для каждой рубрики происходит расчет ее веса по формулам (21.4)и (21.5).

В результирующем множестве остаются рубрики, вес которых превосходитзадаваемый заранее для коллекции порог.318Применение описанной технологии для нескольких систем рубрикации дляразличных текстовых коллекций показали, что описание рубрикатора посредствомопорных понятий служит и как основа для соответствующих организационных решений:- является прообразом свободного от субъективизма комментария к рубрикатору,который может пополняться и уточняться;- при выводе рубрики всегда можно показать/объяснить, почему была выведената или иная рубрика, что позволяет быстро уточнять описание рубрик,анализируя замеченные ошибки рубрикации.21.4.

Использование информеров для составления описаний рубрик приинженерном подходе рубрикацииОдним из недостатков инженерного подхода к рубрикации часто указываетсясложность использования коллекций, отрубрицированных вручную, в качествеобучающей коллекции. Эта проблема становится особенно важной, если предполагаетсярубрикация по рубрикатору сложной структуры, и имеется множество различных неявныхправил отнесения/неотнесения документа к рубрике.В таких случаях улучшить и убыстрить построение формул рубрик помогаютинформеры УИС Россия (см. п. 20.2). Полученная отрубрицированная коллекциядокументов загружается в поисковую систему, причем предоставляется возможностьпоиска по проставленным экспертами рубрикам.

Выполняя запрос на поиск документовпо той или иной рубрике, можно в информере получать и анализировать совокупностинаиболее характерных понятий тезауруса для этой рубрики, что помогает составитьформулу рубрики.Опишем алгоритм работы специалиста по рубрикации для решения различныхзадач поддержки рубрицирования по сложному рубрикатору с использованиеминформеров.123Рис.21.2. Использование информеров УИС РОССИЯ для интерактивного уточненияописания рубрики. (1) окно условий запроса; (2) тематический информер;(3) «ссылки-кнопки» для оперативного добавления условия в запрос319Для того, что составить для рубрики терминологическое описание, необходимовыявить элементарные смыслы рубрики, найти, какими терминами эти смыслы могутвыражаться. Далее необходимо записать булевское выражение, в котором термины,выражающие разные составляющие смыслы рубрики, будут соединяться конъюнкцией, атермины, выражающие один и тот же смысл дизъюнкцией.Для нахождения соответствующих понятий удобно использовать информеры УИСРОССИЯ.

Рассмотрим «модельную» рубрику «Особенности исчисления акцизов приимпорте». Выполняем поиск по рубрике – получаем набор документов, отнесенных крубрике экспертами.Каждый текст, относящийся к этой рубрике, должен содержать термины,относящиеся к сфере импорта, и термины, относящиеся к сфере акцизов.Выбираем из правой колонки понятия, относящиеся к акцизам: ПОДАКЦИЗНЫЙТОВАР, АКЦИЗ, МАРКА АКЦИЗНОГО СБОРА. Удаляем из выдачи документы,содержащие эти понятия, чтобы определить, какие еще термины могут относиться к сфереакцизов.Собираем теперь понятия, относящиеся к импорту. Возвращаемся к запросу порубрике. Изучаем правую колонку – имеется понятия ИМПОРТ. Удаляем документы,включающие этот термин, из выдачи.Информер больше понятий не дает. Начинаем изучать оставшиеся тексты.

Втекстах содержатся слова ввоз, ввезти, ввозить, ввозной. Убираем эти документы –остается 43 документа.В правой колонке появились понятия ТАМОЖЕННАЯ ПОШЛИНА,ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВ, ГОСУДАРСТВЕННЫЙ ТАМОЖЕННЫЙКОМИТЕТ. В сочетании с акцизами эти понятия должны указывать на импорт.Таким образом, мы получили формулу:(ПОДАКЦИЗНЫЙ ТОВАР или АКЦИЗ или МАРКА АКЦИЗНОГО СБОРА)и(ИМПОРТили ВВОЗили ТАМОЖЕННАЯ ПОШЛИНАили ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВили ТАМОЖЕННЫЙ КОМИТЕТ)На каждом шаге происходит контроль оставшегося количества документов,процесс уточнения формулы прекращается, если достигнут требуемый уровень ошибки.Если название рубрики выглядит как состоящее из одного термина, то это часто неозначает, что достаточно упоминания этого термина в тексте, чтобы присвоить текстурубрику.

Часто такой текст должен обсуждать какие-то значимые для данного понятиячасти, свойства и ситуации.Так, тексты в рубрике «Общества с ограниченной и с дополнительнойответственностью» должны содержать не только термины общество с ограниченнойответственностью или общество с дополнительной ответственностью, но иобсуждать такие важнейшие аспекты для этих организаций, как создание, регистрация,учредители, уставный капитал, собственность и т.п.Таким образом, реально рубрика также разлагается на два элементарных смысла,тот что назван в формулировке и что-то вроде «общие вопросы», и описывать рубрикунужно в виде конъюнкции двух частей. Понятия, которые нужно включить во вторуючасть конъюнкции, т.е.

те которые важны для функционирования первой части, могутбыть набраны из информера. Для упомянутой рубрики на правой панели мы увидим:УСТАВНЫЙ КАПИТАЛ, УЧРЕДИТЕЛЬ, РЕГИСТРАЦИЯ ЮРИДИЧЕСКИХ ЛИЦ, СОВЕТДИРЕКТОРОВ.320Таким образом, в сложных задачах рубрикации существенным становитсявзаимодействие с экспертами, так как единственным способом решения задачирубрикации является итерационное уточнение правил рубрицирования.Для этих целей можно применять методы, основанные на знаниях, которыепозволяют легко интерпретировать, почему такой-то документ был отнесен к рубрике.Основным недостатком этих методов является высокая трудоемкость, обусловленнаянеобходимостью привлечения экспертов для составления таких правил. Однако,представляется, что это неизбежно, поскольку в реальных задачах рубрикации отмеченазначительная непоследовательность исходных данных ручной рубрикации (см.п.13.3.1.).21.5. Эксперимент по автоматической рубрикации текстов врамках семинара РОМИП 2007Опишем результаты работы системы автоматического рубрицирования,основанной на тезаурусных знаниях в задаче классификации Web-страниц в рамкахсеминара РОМИП 2007 (Агеев и др., 2008a).

Исходный набор данных включал в себяколлекцию страниц с сайтов белорусского интернета BY.web и коллекцию DMOZ,используемую в качестве обучающего множества. Обучающее множество состоит изсайтов, но не обязательно все страницы сайта относятся к одной теме. Рубрикациядолжна была быть выполнена для 247 рубрик рубрикатора DMOZ.При выполнении данного эксперимента была поставлена задача выяснения,сколько времени нужно потратить на описание заданных рубрик с использованием изинформации из тезауруса, и каких показателей качества рубрицирования можнодостигнуть.Работа по описанию 247 рубрик задания была выполнена за 8 часов рабочеговремени.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6372
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее