Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 74

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 74 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 742020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 74)

16.4).Как указывалось в предыдущем разделе, на втором этапе строится так называемаяпроекция тезауруса для анализируемого текста. Проекция включает в себя понятияиндекса и тезаурусные отношения между такими понятиями, которые входят втезаурусную окрестность друг друга.В тезаурусную проекцию текста включаются и все варианты понятия,соответствующие многозначным текстовым входам тезауруса.

Для них также выявляютсявсе понятия, упомянутые в тексте и входящие в их тезаурусные окрестности.Для разрешения многозначности текстовых входов тезауруса было предложено иэкспериментально проверено два метода: метод глобального подтверждения и методвзвешивания подтверждения от локального и глобального контекстов, которые мырассмотрим в следующих разделах.18.2.1. Метод глобального подтвержденияМетод глобального подтверждения заключается в том, что все понятия, вхождениякоторых обнаружены в тексте, могут оказывать влияние на выбор значениямногозначного языкового выражения.

Рассмотрение глобального контекста учитываеттакое свойство связного текста как лексическую связность текста, то есть повторяемость275одних и тех же лексических единиц и совокупностей семантически близких лексическихединиц в связном тексте (Лукашевич, 1996; Лукашевич, Добров, 2007).Для каждого варианта многозначного выражения собираются те понятия текста,которые "поддерживают" этот вариант. "Поддержка" текста проявляется двумяспособами:- в тексте встречается однозначный вариант помеченного понятия, например,упоминание в тексте словосочетания расследование преступленийподдерживает именно это значение у многозначного слова следствие.- в тексте встречается понятие из тезаурусной окрестности неоднозначноготермина, например, упоминается понятие ОБЩЕСТВЕННАЯ ДЕЯТЕЛЬНОСТЬиз тезаурусной окрестности неоднозначного термина партия.Далее собственно и производится выбор варианта понятия для многозначноготермина.

Как указывалось в п. 16.4, многозначность в тезаурусе РуТез может быть заданадвумя способами: с помощью пометы и с помощью отнесения текстового выражения кразным понятиям тезауруса. Процедура автоматического выбора значения в этих случаяхнесколько различается:- неоднозначность задана с помощью пометы. Если текст "поддерживает"описанное в тезаурусе значение неоднозначного термина, то соответствующеепонятие включается в понятийный индекс как однозначный.

В противномслучае, неоднозначный термин исключается из понятийного индекса.- неоднозначность проявляется в соответствии одного текстового выражениянескольким понятиям. Сначала проверяется, какие из вариантов терминаподдерживаются понятиями всего текста, и оставляются только"поддержанные" варианты. Если ни один из вариантов не поддерживается, товсе они удаляются из понятийного индекса.После удаления "неподдержанных" вариантов может остаться только один вариант,и, таким образом, неоднозначность разрешена.Если же поддержано более одного варианта, то производится выбор значенияименно для конкретного вхождения неоднозначного термина: выбирается тот вариант, длякоторого "поддерживающее" понятие находится ближе всего по тексту.

Расстояниеизмеряется в количестве выявленных понятий между текущим вхождениемнеоднозначного термина и "поддерживающим" понятием.Далее этот метод разрешения многозначности мы будем называть Glob.Данный алгоритм очень прост, однако в нем есть некоторые проблемы.Во-первых, в этом методе для учета концептуальной близости используютсятолько пути, состоящие из иерархических отношений одной направленности, то есть безперегибов, таким образом, семантически близкими считались только понятия,находящиеся в иерархических отношениях между собой. Это приводило к явнымпроблемам на относительно коротких текстах, таких как новостные сообщения, когданеобходимые для подтверждения иерархически расположенные понятия не входили всостав анализируемого текста.Во-вторых, нет ограничений на длину пути между понятиями, что приводило,например, к тому, что многозначность очень конкретного понятия могла быть разрешенана основе нахождения в тексте очень абстрактного понятия.В-третьих, не имеется весовой оценки семантической близости между понятиямина основе путей между ними или каких-либо других: подтверждение производилось наоснове принципа «да-нет».В-четвертых, приоритет отдавался глобальному контексту, то есть сначалапроверялось, если ли подтверждение для того или иного значения по всему тексту.

Еслинесколько значений имели подтверждение в глобальном контексте, то проверялся276локальный контекст: выбиралось то значение, подтверждение для которого находилосьближе всего к исследуемому многозначному вхождению.Поэтому был предложен другой алгоритм разрешения многозначности, которыйдолжен более аккуратно учитывать разные характеристики путей между понятиямитезауруса.18.2.2. Метод взвешивания подтверждения отлокального и глобального контекстовОсновой для разработанного алгоритма разрешения многозначности являетсяоценка семантической близости между возможными значениями, с одной стороны, иокружающим текстовым контекстом, с другой стороны. При этом рассматривается каклокальный контекст, который задается в виде некоторого окна – линейной окрестностимногозначного вхождения слова, так и глобальный контекст, в который входят все словатекста (Лукашевич, Чуйко, 2007).18.2.2.1.

Учет локального и глобального контекстаВ качестве локального контекста рассматривается фиксированная линейнаяокрестность многозначного вхождения слова, измеряемая в количестве найденныхэлементов тезауруса, - исследовался размер окна окрестности от 1 до 5 элементов в обестороны.Также мы исследовали задание локального контекста как «динамического» окнаN+N, то есть сначала происходит попытка выбора значения слова в окрестности длинойN, если это удается, то обработка данного вхождения заканчивается. Если не удается, топроисходит расширение окрестности еще на N элементов и процедура выбора значенияпродолжается. Тестировались такие динамические окна как 1+1, 2+2, 3+3.При использовании глобального контекста возникает вопрос о том, насколько вдостаточно длинном тексте правомерно использование полного текста как базы длявыбора значения, не нужно ли вводить некоторые ограничения, например, на расстояние(в абзацах, предложениях) между данным многозначным вхождением и упоминаниемсемантически близкого понятия в тексте.

Так, в работе (Galley, McKeown, 2003) разныетипы связи имеют разную сферу действия и разный вес в зависимости от такого родарасстояния, измеряемого в абзацах и предложениях.В процессе экспериментов нами была выбрана следующая специфика учетаглобального контекста.В качестве элементов глобального контекста учитываются только однозначныевхождения тезаурусных единиц. Мы не накладываем никаких ограничений на расстояниемежду вхождением многозначного слова и семантически близкими словами не вводится.Предполагается, что возможное неправильное подтверждение от далекой части текстадолжно преодолеваться правильным подтверждением от локального контекста и болееблизкой части текста.Поскольку локальный контекст достаточно ограничен, а глобальный контекстможет достигать весьма большой величины, то необходимо сбалансировать свидетельствав пользу того или иного значения, получаемые от локального и глобального контекста.Прежде всего, вес подтверждения значения, получаемый от некоторой лексическойединицы в локальном контексте всегда выше, чем от той же единицы, расположенной внелокального контекста.

Кроме того, мы тестировали возможность применениякоэффициента, уменьшающего вес подтверждения от глобального контекста приувеличении длины текста (точнее при увеличении максимальной частотности лексическойединицы в тексте).27718.2.2.2. Семантическая близость понятий как функция отособенностей пути отношений между нимиСемантическая близость между двумя понятиями С1 и С2 оценивается на основерассмотрения пути отношений, который существует между этими единицами тезауруса.Между понятиями в тезаурусе могут существовать пути разной конфигурации,тезаурус связен и всегда существует путь отношений от одного произвольного понятиятезауруса до другого понятия тезауруса. Однако подобно подходу (Hirst, St-Onge 1998)мы ограничиваем конфигурации путей между понятиями С1 и С2, которыерассматриваются при оценке семантической близости понятий, а именно, либо путьдолжен состоять из совокупности иерархических отношений, направленных в однусторону, например, последовательность отношений от вида к роду (иерархический путь см.п.17.8), либо такой путь должен включать ровно один перегиб, то есть изменениенаправления движения (путь с перегибом).

При этом рассматриваются перегибы двухвидов: перегиб-сверху, например, сначала несколько отношений от видовых понятий кродовым, затем несколько отношений от родовых понятий к видовым, так и перегибснизу.Как мы описывали в предыдущей главе, в тезаурусе РуТез имеется три видаиерархических отношений ВЫШЕ-НИЖЕ, ЧАСТЬ-ЦЕЛОЕ и несимметричная ассоциацияАСЦ1-АСЦ2. Таким образом, три отношения (ВЫШЕ, ЦЕЛОЕ, АСЦ1) направлены поиерархии вверх, а три отношения (НИЖЕ, ЧАСТЬ и АСЦ2) – по иерархии вниз.Для родовидового отношения ВЫШЕ-НИЖЕ определены свойства транзитивностии наследования, отношение ЧАСТЬ-ЦЕЛОЕ также рассматривается как транзитивноеотношение.Рис.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6359
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее