Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 40

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 40 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 402020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 40)

Упор делается на отношениягипонимии-гиперонимии и взвешивается длина пути относительно всей глубинытаксономии (D):Sim LC (C1, C2) = - log (PathLen(C1,C2)/2D)(10.1)В работе (Hirst, St-Onge, 1998) предполагается, что два синсета семантическиблизки, если соединены достаточно коротким путем, который имеет малое количествоперегибов:Sim HS (C1, C2) = c0 – PathLen – k * d,(10.2)где d – количество перегибов на протяжении пути; c0 и k – константы. Если такогопути не существует, то Sim HS (C1, C2) = 0.В экспериментах использовались значения констант c0 = 8, k = 1, максимальнаядлина пути 5 шагов.В ряде работ концептуальное расстояние между синсетами учитывает большеечисло параметров. Так, для подсчета концептуального расстояния в работе (Agirre, 1995;Agirre, 1996) вводится понятие концептуальной плотности и формула ее вычисления,которая, по мнению авторов, наилучшим способом описывает близость между словами.В формуле учитываются следующие параметры:- длина самого короткого пути в иерархии;- глубина в иерархии;- плотность понятий в иерархии;151- число концептов.Формула вычисления концептуальной плотности выглядит следующим образом:- c-корень (вершина);- nhyp – число гипонимов в вершине;- h - высоту иерархии;- m-число слов из контекста, которые попали в иерархию.Тогда формула, которая вычисляет плотность (10.3).m 1CD (c, m)  nhypi nhypii 0h 1(10.3)i 0h 1descendants c   nhyp i(10.4)i 0nhyp в этой формуле вычисляется по формуле (10.4), где desсendants-количествопотомков в узле.Эти формулы автор пытался улучшить опытным путем, вводя параметры, исмотря, при каких значениях формула дает наилучшие результаты.

В итоге выбор былостановлен на формуле (10.5).m 1CD(c, m)  (nhyp   )ii 0descendantsc(10.5)Другим направлением выбора значения многозначного слова на основе близостиконтекста в тексте и окружения слов в тезаурусе являются подходы, основанные наоценке так называемого информационного содержания.Ф. Резник (Resnik, 1995) вводит характеристику «информационное содержание»(information content), которая определяется как величина вероятности встретить примерпонятия С в большом корпусе P(C). Эта вероятностная функция обладает следующимсвойством: если C1 вид для C2, то P(C1) =< P(C2). Значение вероятности для наиболееверхней вершины иерархии равно 1. Следуя обычной аргументации теории информации,информационное содержание понятия C может быть представлено как отрицательныйлогарифм этой вероятности:IC (C) = - log (P(C)) .(10.6)Чем более абстрактным является понятие, тем меньше величина егоинформационного содержания.Для решения задачи разрешения лексической многозначности, вводится понятиенаименьшего общего вышестоящего (LCS = Least Common Subsumer).

Алгоритмбазируется на идее, что нужно выбирать такое значение многозначного слова, наименьшееобщее вышестоящее которого наиболее информативно.Sim Rz (C1, C2) = IC(LCS (C1, C2))(10.7).Авторы работы (Jiang, Conrath, 1997) развивают формулу (10.7) следующимобразом:Sim JC (C1, C2) = 2 * IC(LCS (C1,C2)) –– ( IC(C1) + IC(C2) ),(10.8)то есть учитывается не только коэффициент информационного содержанияпересечения путей от синсетов, то и исходное местоположение самих исходных синсетов.152Подчеркнем, что для вычисления информационного содержания, а, значит, иприменения описанных выше подходов необходимо иметь семантически размеченныйкорпус.В работе (Patwardhan и др., 2002) описывается тестирование ряда предложенныхна базе WordNet метрик на материалах конференции Senseval-2. Для 1723 многозначныхсуществительных коллекции метрики применялись в контексте длиной одно слово.Например, для выражения Plant with flowers, по этим мерам вычислялось сходствосуществительных plant и flower.Лучший результат был получен для метрики,предложенной в работе (Jiang, Conrath 1997), и составил 39% точности.В работе (Vossen и др., 2006) предлагается алгоритм разрешения лексическоймногозначности на основе разметки предметных областей Wordnet (Magnini, Cavaglia,2000), при которой большинство синсетов тезауруса Wordnet отнесены к той или инойпредметной области, а если подходящей предметной области нет, то к специальнойобласти Factotum (см.

п. 2.5.3.1)Выбор значения многозначного слова основывается на проверке соответствияпредметных областей этих значений и слов в локальном контексте (4 именные группыслева и 5 именных групп справа) и во всем тексте. Приводятся данные, что с помощьюданной системы разрешения многозначности удалось сократить количество значений на57-65%. При этом подчеркивается, что большинство сокращений относятся к словам изобласти Factotum (п.2.5.3.1), то есть к словам, не относящимся к конкретным предметнымобластям таким как быть, начинаться, человек.Подход к разрешению многозначности на основе содержания целого текстатестируется в работе (Galley, McKeown, 2003).На первом этапе происходит сопоставление с текстом, и в специальную структуру,называемую disambiguation graph записываются все встретившиеся значения.Устанавливаются связи между узлами: гипонимы (видовые понятия), гиперонимы(родовые понятия) и понятия, имеющие с данным понятием одно и то же родовое понятие,так называемые сестры.На втором этапе происходит разрешение многозначности в предположении «однозначение на текст».Для каждого значения насчитывается его вес, который представляется какфункция, зависящая от типа отношения и от расстояния в тексте между анализируемымвхождением и близким по смыслу значением в тексте.

Так, например, синонимы, родовыеи видовые значения добавляют вес к соответствующему значению, независимо от своегоместоположения в тексте. Выбирается значение, получившее максимальный вес.Зависимость коэффициента добавления веса от расстояния отражена в следующейтаблице:СемантическоеотношениеСинонимыГипоним/ГиперонимСинсетысестры1 предложение3 предложения1 абзацДругое110.50.510.50.50.310.30.20Если выбрать значение на основе полученных весов не удалось, то выбираетсяпервое по порядку значение WordNet, которое является наиболее частотным в коллекцииSemCor, семантически размеченной по значениям WordNet.Точность разрешения многозначности на основе данного алгоритма на 35000существительных 74 текстов корпуса Semcor оценивается как 62.09%.153Авторы работы (Mihalcea и др., 2004) используют алгоритм PageRank дляразрешения многозначности на основе WordNet и целого текста как контекста.Сначала для каждого значимого слова текста отмечаются все синсеты, в которыевходит это слово.

Такие синсеты становятся вершинами графа, ребрами графа являютсяотношения, полученные на основе отношений описанных в WordNet, включая:- традиционные отношения между синсетами: гипонимия, гиперонимия,меронимия и т.п.;- отношениеноминализации,появившеесявWordNet 2.0,котороеустанавливается между глаголом и существительным, являющимисядериватами;- так называемые координатные отношения – отношения между видовымисинсетами являющиеся подвидами одного и того же родового синсета.Выбирается значение, получившее максимальный PageRank.Точность разрешения многозначности данного алгоритма для задачи «все словатекста» на тестовом материале Senseval-3 - 50.89%, с учетом наиболее частотногозначения – 63.27%.Заключение к главе 10.Достигнутые показатели разрешения многозначности для задачи «все словатекста», которые собственно и является базой для последующей обработки текста, некажутся достаточно высокими, поскольку не достигают и 70% точности.С другой стороны, и между экспертами лексикографами могут возникатьдостаточно серьезные расхождения при разметке значений.Для того, чтобы понять, насколько качество разрешения многозначности и егодостигнутый уровень являются существенными для приложений, начат циклисследований, в рамках которых разрешение многозначности включается в выполняемуюзадачу, например, в задачу поиска документов (Agirre и др., 2007).

C 2008 года такоетестирование проводится в рамках форума по многоязычному информационному поискуCLEF (www.clef-campaign.org).154Глава 11. Тезаурусы в информационном поискеСовременные модели информационного поиска не используют знаний, описанныхв тезаурусах и онтологиях, базируются на моделях текста как набора слов, предлагаяизощренные методы учета частотностей встречаемости слов в предложении, тексте,наборе документов, совместной встречаемости слов и т.п.Вместе с тем, существуют типы запросов к поисковым системам, которыеявляются сложными для современных технологий информационного поиска и,следовательно, качество поиска по этим запроса достаточно низкое. Исследованию такихзапросов был посвящен специальный семинар под названием «Надежный доступ кинформации» (Reliable Information Access), проведенный в 2003 году.

В рамках этогосеминара анализировались результаты поиска нескольких поисковых систем по труднымзапросам, выявленным в рамках экспериментов конференции по информационномупоиску TREC.Обобщая результаты этих экспериментов, Д. Харман (Harman, 2005) указывала, чтопри проведении анализа исполнения трудных запросов посредством шестью разнымипоисковыми системами было выявлено, что проблемы, возникающие в процессеобработки трудных запросов этими системами, были сходны в значительно большейстепени, чем это ожидалось.

Часто системы возвращали разные документы одного и тогоже класса, не сумев найти релевантные документы. Среди потенциальных методов,которые могли бы улучшить выдачу систем по таким запросам, указывались методырасширения запросов, в том числе, и с использованием специальных ресурсов –тезаурусов.В работе (Shah, Croft, 2004) в качестве одного из существенных факторовсложного запроса для современных информационных систем называлось расхождениемежду словесной формулировкой запроса и описанием релевантных ситуаций вдокументах коллекции, что, как показано в экспериментах, можно преодолеть с помощьютезаурусов.Таким образом, одной из потенциальных возможностей преодоления проблемтекущих моделей информационного поиска является встраивание в модели поиска знаний,описанных в онтологических ресурсах.Целью этой главы является рассмотрение результатов работы методов, в которыхдля поиска документов в процессе автоматической обработки запроса используютсятезаурусы и онтологии.

Для такого изложения сначала необходимо кратко описатьсуществующие модели информационного поиска.11.1. Модели информационного поиска11.1.1. Булевская модельИсторически первой моделью информационного поиска является Булевскаямодель. В этом подходе слова запроса соединяются между собой логическими связками:AND ( & ), OR(  ), NOT(  ), которые могут быть сгруппированы при помощи скобок.Таким образом, запрос пользователя представляется логической формулой, в которойатомами могут быть термины или какие-либо дополнительные условия (например, типколлекции или документа, ограничение на расстояние между словами запроса и т.п.).Поисковая машина, основанная на булевом поиске, возвращает документы, длякоторых формула запроса принимает истинные значения.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.