Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 75

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 75 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 752020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 75)

18.2. Фрагмент тезаурусной сети понятий текста примера в главе 17 смногозначными текстовыми входамиНа рис.18.2 примером иерархического пути является путьБОЛЬШОЙ ТЕАТР-- (ВЫШЕ) – ТЕАТР ОПЕРЫ И БАЛЕТА278-- (ЦЕЛОЕ) -- БАЛЕТ (ИСКУССТВО),Примером пути с перегибом сверху является путь:ОРКЕСТРОВАЯ ЯМА-- (ЦЕЛОЕ) -- ЗРИТЕЛЬНЫЙ ЗАЛ-- (ЧАСТЬ) -- ПАРТЕР ЗРИТЕЛЬНОГО ЗАЛА,Примером пути с перегибом снизу является путь:ТЕАТРАЛЬНАЯ ПОСТАНОВКА-- (НИЖЕ) -- БАЛЕТНЫЙ СПЕКТАКЛЬ-- (ВЫШЕ) -- МУЗЫКАЛЬНАЯ ПОСТАНОВКА.Построение разрешенных путей осуществляется следующим образом.Для каждого понятия тезауруса можно определить совокупность иерархическивышестоящих понятий – так называемое «дерево-вверх».

«Дерево-вверх» понятия С0включает те понятия тезауруса, к которым от С0 может быть проведен путь, состоящий изотношений одной направленности, и который с помощью правил наследования итранзитивности может быть сведен к одному отношению. Схожим образом, на основеиерархических отношений, направленных вниз, определяется совокупность иерархическинижестоящих понятий - «дерево-вниз».Так, например, на рис.18.2 для понятия БОЛЬШОЙ ТЕАТР можно видетьследующие вышестоящие по иерархии понятия (понятия из «дерева-вверх»):ТЕАТР ОПЕРЫ И БАЛЕТА, ТЕАТР, ТЕАТРАЛЬНОЕ ИСКУССТВО, ЗРИТЕЛЬНОЕУЧРЕЖДЕНИЕ.Таким образом, между двумя понятиями существует путь разрешенной структуры,если либо одно из понятий входит в дерево-вниз или в дерево-вверх другого понятия,либо если между их деревьями имеется непустое пересечение.18.2.2.3.Числовая оценка семантической близостиСемантическая близость понятий, связанных путем заданной конфигурации,зависит от особенностей пути между понятием-значением и подтверждающим понятием:- чем длиннее путь между понятиями, тем слабее семантическая близость;- наличие перегиба на пути ослабляет семантическую близость;- разные типы перегибов на пути могут по-разному влиять на семантическуюблизость;- перегиб пути на высоком уровне иерархии хуже, чем на более низком уровне.Кроме того, учитывался тот факт, что подтверждение от лексической единицы,которая в свою очередь многозначна, возможно, должно быть слабее.

Например, в текстепримера во фрагменте «светила другая, куда более загадочная звезда» нахождение рядомслов светила и звезда, приводит к трактовке обоих слов как небесных тел.Для учета такого рода рассуждений была применена следующая формула:Sim new (C1, C2) = максимальный_балл –– длина_пути –(18.1)– цена_многозначности –– цена_перегиба – цена глобальности.Максимальный балл представляет собой максимально возможную оценкуподтверждения, связанную с тем, что встретился однозначный синоним рассматриваемогомногозначного термина. В настоящее время, величина максимального балла равняется 10.279Параметр цена_глобальности составляет величину, большую нуля, в случаеоценки глобального контекста и величину, равную нулю, при анализе локальногоконтекста.18.2.2.4.

Этапы алгоритмаПоступающий текст проходит через процедуру графематического иморфологического анализа. Далее на основе цепочек лемм, полученных в результатеморфологического анализа, происходит сопоставление с тезаурусом. Для каждойсопоставившейся тезаурусной единицы отмечается ее статус: однозначное сопоставление,сопоставление с пометкой многозначности (А-многозначность), сопоставилось несколькоединиц тезауруса (М-многозначность). Отметим, что если одна из сопоставленныхтезаурусных единиц, полностью включается в другую тезаурусную единицу, то этаситуация многозначной не считается, сопоставленной считается более длиннаятезаурусная единицаПроцедура разрешения многозначности начинается с анализа глобальногоконтекста.

Для каждого значениянеоднозначных единиц текста анализируется,упоминались ли в тексте понятия, семантическая близость которых к текущему понятию,составляет число баллов, большее 0, по формуле (18.1). Все набранные баллы понятийзначений многозначных единиц суммируются и запоминаются.Далее происходит анализ локального контекста. Для каждого вхождениямногозначной тезаурусной единицы просматривается заданная текстовая окрестность,выбираются упоминаемые понятия, связанные с понятиями данной многозначнойединицы тезаурусными путями разрешенной конфигурации, и подсчитываются баллы поформуле (6). Баллы, полученные при глобальном анализе и локальном анализе,суммируются.Для каждого вида многозначности задается свой порог. Если понятия-значения,получили баллы, меньшие, чем заданный порог, то считается, что ни одно значение неподтвердилось, возможно, в тексте использовано какое-то другой значение.Если понятие единицы с А-многозначностью получает количество баллов, большеечем установленная пороговая величина, тоэто значение подтверждается и,соответственно, выбирается.Среди понятий для текстовой единицы с М-многозначностью выбирается значение,получившее максимальное количество баллов.Если понятия единицы с М-многозначностью получили одинаковое количествобаллов, превышающее пороговое, то выбирается вышестоящее по иерархии понятие, так,например, для значений слова балет таким понятием является понятие БАЛЕТНОЕИСКУССТВО (см.

рис. 18.2). В случае если такой иерархической связи не имеется, то внастоящее время не выбирается ни одно из понятий – многозначность остаетсянеразрешенной. Если бы на основе разметки корпуса было бы известно наиболеечастотное значение, то можно было бы в таких случаях выбирать именно это частотноезначение.Далее на этот алгоритм разрешения многозначности мы будем ссылаться LocGlob.18.3. Организация тестирования алгоритмов разрешения многозначностиДля определения качества разрешения лексической многозначности необходимобыло выполнить эталонную разметку найденных терминов по значениям. Для каждогодокумента экспертами-лингвистами были созданы эталонные файлы, с правильнойразметкой значений.После получения эталонных файлов они были автоматически сопоставлены срезультатами работы программы разрешения многозначности.

Были выделены следующие280случаи соответствия (несоответствия) эталонной разметки и результирующего файлаработы программы:1) Значение было выбрано правильно;2) Значение не было выбрано, и это было правильно;3) Значение было выбрано неправильно;4) Значение не было выбрано, и это было неправильно;5) Система выбрала один из правильных вариантов.В качестве правильных решений системы рассматривались виды соответствия 1),2) и 5). В качестве основной характеристики работы алгоритма оценивалась точностьразрешения многозначности, которая рассчитывается как отношение между числомправильных решений и числом всех решений.Число всех решений – это количество обнаруженных в тексте единиц тезауруса,отмеченных как многозначные.

Таким образом, при сопоставлении одного и того жетекста с Общественно-политическим тезаурусом количество решений, котороенеобходимо принять, меньше, чем при сопоставлении с объемлющим тезаурусом РуТез.Тестировались следующие параметры алгоритма:- максимальная длина дерева, то есть насколько далеко в одном и то женаправлении иерархических отношений от исходного понятия можно искатьподтверждающие значение понятия - длина дерева может быть различной длялокального и глобального контекстов,- строение (статическое или динамическое см.

п. 18.2.2.1) и размер окналокального контекста,- в локальном контексте: учитывать ли в полном объеме подтверждение отмногозначного термина. Если снижать вес подтверждения в таких случаях, токаким образом: вычитать баллы, делить на коэффициент и т.п.,- цена глобальности – насколько баллы, полученные от одного и того жеподтверждения, меньше в глобальном контексте, чем в локальном.- веса различных перегибов путей для локального и глобального контекста,- пороги для видов многозначности: А-многозначности и М-многозначности.Мы тестировали отдельно точность разрешения многозначности по Общественнополитическому тезаурусу, то есть определяли качество разрешения многозначноститематической лексики и терминологии, и по тезаурусу РуТез, то есть тестировалоськачество разрешения многозначности для всех знаменательных слов текста.

Последняязадача соответствует задаче тестирования «все слова текста», проводимой в рамкахконференции Senseval (см. главу 10).18.3.1.Тестирование алгоритмов разрешения многозначности на основеОбщественно-политического тезаурусаТестирование алгоритмов разрешения многозначности для терминов общественнополитического тезауруса проводилось на материалах газет и наборе новостныхсообщений. Предварительно, случайным образом было выбрано несколько дат.

Изколлекции Университетской информационной системы РОССИЯ (www.cir.ru) быливыгружены газетные публикации, относящиеся к выбранным датам. Набор газетныхпубликаций включает полные номера газет «Известия», «Ведомости», «Независимаягазета», «Комсомольская правда».

Каждый номер содержит несколько десятков статей.Средний размер статьи около 5 Кб. За те же даты были взяты новостные сообщения изколлекции новостей Яндекса (данная коллекция распространяется в рамкахэкспериментов семинара РОМИП).В процессе эксперимента вручную было размечено 197 документов, чтосоответствует полным номерам газет «Известия», «Независимая газета», «Ведомости»,«Комсомольская правда» от 19 ноября 2003 года, а также было размечено 30 новостных281сообщений за ту же дату. Взятие полных номеров обеспечивает достаточно большоеразнообразие тематики документов.Результаты работы алгоритмов разрешения многозначности по каждому изисточников показаны в Таблице 19.1, где Ndoc - число документов, Namb - число вхожденийнеоднозначных терминов, Plocglob - точность по алгоритму LocGlob, Pglob- точность поалгоритму Glob.ИсточникNdocNambPglob+loc ,Pglob ,%%Известия44252572.0075.23Ведомости62269773.4177.89Независимая газета42277666.5068.14Комсомольская правда49224063.0466.74Яндекс-Новости3045068.0075.05Всего2271068868.7773.37Таблица 19.1.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее