Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 40
Текст из файла (страница 40)
Упор делается на отношениягипонимии-гиперонимии и взвешивается длина пути относительно всей глубинытаксономии (D):Sim LC (C1, C2) = - log (PathLen(C1,C2)/2D)(10.1)В работе (Hirst, St-Onge, 1998) предполагается, что два синсета семантическиблизки, если соединены достаточно коротким путем, который имеет малое количествоперегибов:Sim HS (C1, C2) = c0 – PathLen – k * d,(10.2)где d – количество перегибов на протяжении пути; c0 и k – константы. Если такогопути не существует, то Sim HS (C1, C2) = 0.В экспериментах использовались значения констант c0 = 8, k = 1, максимальнаядлина пути 5 шагов.В ряде работ концептуальное расстояние между синсетами учитывает большеечисло параметров. Так, для подсчета концептуального расстояния в работе (Agirre, 1995;Agirre, 1996) вводится понятие концептуальной плотности и формула ее вычисления,которая, по мнению авторов, наилучшим способом описывает близость между словами.В формуле учитываются следующие параметры:- длина самого короткого пути в иерархии;- глубина в иерархии;- плотность понятий в иерархии;151- число концептов.Формула вычисления концептуальной плотности выглядит следующим образом:- c-корень (вершина);- nhyp – число гипонимов в вершине;- h - высоту иерархии;- m-число слов из контекста, которые попали в иерархию.Тогда формула, которая вычисляет плотность (10.3).m 1CD (c, m) nhypi nhypii 0h 1(10.3)i 0h 1descendants c nhyp i(10.4)i 0nhyp в этой формуле вычисляется по формуле (10.4), где desсendants-количествопотомков в узле.Эти формулы автор пытался улучшить опытным путем, вводя параметры, исмотря, при каких значениях формула дает наилучшие результаты.
В итоге выбор былостановлен на формуле (10.5).m 1CD(c, m) (nhyp )ii 0descendantsc(10.5)Другим направлением выбора значения многозначного слова на основе близостиконтекста в тексте и окружения слов в тезаурусе являются подходы, основанные наоценке так называемого информационного содержания.Ф. Резник (Resnik, 1995) вводит характеристику «информационное содержание»(information content), которая определяется как величина вероятности встретить примерпонятия С в большом корпусе P(C). Эта вероятностная функция обладает следующимсвойством: если C1 вид для C2, то P(C1) =< P(C2). Значение вероятности для наиболееверхней вершины иерархии равно 1. Следуя обычной аргументации теории информации,информационное содержание понятия C может быть представлено как отрицательныйлогарифм этой вероятности:IC (C) = - log (P(C)) .(10.6)Чем более абстрактным является понятие, тем меньше величина егоинформационного содержания.Для решения задачи разрешения лексической многозначности, вводится понятиенаименьшего общего вышестоящего (LCS = Least Common Subsumer).
Алгоритмбазируется на идее, что нужно выбирать такое значение многозначного слова, наименьшееобщее вышестоящее которого наиболее информативно.Sim Rz (C1, C2) = IC(LCS (C1, C2))(10.7).Авторы работы (Jiang, Conrath, 1997) развивают формулу (10.7) следующимобразом:Sim JC (C1, C2) = 2 * IC(LCS (C1,C2)) –– ( IC(C1) + IC(C2) ),(10.8)то есть учитывается не только коэффициент информационного содержанияпересечения путей от синсетов, то и исходное местоположение самих исходных синсетов.152Подчеркнем, что для вычисления информационного содержания, а, значит, иприменения описанных выше подходов необходимо иметь семантически размеченныйкорпус.В работе (Patwardhan и др., 2002) описывается тестирование ряда предложенныхна базе WordNet метрик на материалах конференции Senseval-2. Для 1723 многозначныхсуществительных коллекции метрики применялись в контексте длиной одно слово.Например, для выражения Plant with flowers, по этим мерам вычислялось сходствосуществительных plant и flower.Лучший результат был получен для метрики,предложенной в работе (Jiang, Conrath 1997), и составил 39% точности.В работе (Vossen и др., 2006) предлагается алгоритм разрешения лексическоймногозначности на основе разметки предметных областей Wordnet (Magnini, Cavaglia,2000), при которой большинство синсетов тезауруса Wordnet отнесены к той или инойпредметной области, а если подходящей предметной области нет, то к специальнойобласти Factotum (см.
п. 2.5.3.1)Выбор значения многозначного слова основывается на проверке соответствияпредметных областей этих значений и слов в локальном контексте (4 именные группыслева и 5 именных групп справа) и во всем тексте. Приводятся данные, что с помощьюданной системы разрешения многозначности удалось сократить количество значений на57-65%. При этом подчеркивается, что большинство сокращений относятся к словам изобласти Factotum (п.2.5.3.1), то есть к словам, не относящимся к конкретным предметнымобластям таким как быть, начинаться, человек.Подход к разрешению многозначности на основе содержания целого текстатестируется в работе (Galley, McKeown, 2003).На первом этапе происходит сопоставление с текстом, и в специальную структуру,называемую disambiguation graph записываются все встретившиеся значения.Устанавливаются связи между узлами: гипонимы (видовые понятия), гиперонимы(родовые понятия) и понятия, имеющие с данным понятием одно и то же родовое понятие,так называемые сестры.На втором этапе происходит разрешение многозначности в предположении «однозначение на текст».Для каждого значения насчитывается его вес, который представляется какфункция, зависящая от типа отношения и от расстояния в тексте между анализируемымвхождением и близким по смыслу значением в тексте.
Так, например, синонимы, родовыеи видовые значения добавляют вес к соответствующему значению, независимо от своегоместоположения в тексте. Выбирается значение, получившее максимальный вес.Зависимость коэффициента добавления веса от расстояния отражена в следующейтаблице:СемантическоеотношениеСинонимыГипоним/ГиперонимСинсетысестры1 предложение3 предложения1 абзацДругое110.50.510.50.50.310.30.20Если выбрать значение на основе полученных весов не удалось, то выбираетсяпервое по порядку значение WordNet, которое является наиболее частотным в коллекцииSemCor, семантически размеченной по значениям WordNet.Точность разрешения многозначности на основе данного алгоритма на 35000существительных 74 текстов корпуса Semcor оценивается как 62.09%.153Авторы работы (Mihalcea и др., 2004) используют алгоритм PageRank дляразрешения многозначности на основе WordNet и целого текста как контекста.Сначала для каждого значимого слова текста отмечаются все синсеты, в которыевходит это слово.
Такие синсеты становятся вершинами графа, ребрами графа являютсяотношения, полученные на основе отношений описанных в WordNet, включая:- традиционные отношения между синсетами: гипонимия, гиперонимия,меронимия и т.п.;- отношениеноминализации,появившеесявWordNet 2.0,котороеустанавливается между глаголом и существительным, являющимисядериватами;- так называемые координатные отношения – отношения между видовымисинсетами являющиеся подвидами одного и того же родового синсета.Выбирается значение, получившее максимальный PageRank.Точность разрешения многозначности данного алгоритма для задачи «все словатекста» на тестовом материале Senseval-3 - 50.89%, с учетом наиболее частотногозначения – 63.27%.Заключение к главе 10.Достигнутые показатели разрешения многозначности для задачи «все словатекста», которые собственно и является базой для последующей обработки текста, некажутся достаточно высокими, поскольку не достигают и 70% точности.С другой стороны, и между экспертами лексикографами могут возникатьдостаточно серьезные расхождения при разметке значений.Для того, чтобы понять, насколько качество разрешения многозначности и егодостигнутый уровень являются существенными для приложений, начат циклисследований, в рамках которых разрешение многозначности включается в выполняемуюзадачу, например, в задачу поиска документов (Agirre и др., 2007).
C 2008 года такоетестирование проводится в рамках форума по многоязычному информационному поискуCLEF (www.clef-campaign.org).154Глава 11. Тезаурусы в информационном поискеСовременные модели информационного поиска не используют знаний, описанныхв тезаурусах и онтологиях, базируются на моделях текста как набора слов, предлагаяизощренные методы учета частотностей встречаемости слов в предложении, тексте,наборе документов, совместной встречаемости слов и т.п.Вместе с тем, существуют типы запросов к поисковым системам, которыеявляются сложными для современных технологий информационного поиска и,следовательно, качество поиска по этим запроса достаточно низкое. Исследованию такихзапросов был посвящен специальный семинар под названием «Надежный доступ кинформации» (Reliable Information Access), проведенный в 2003 году.
В рамках этогосеминара анализировались результаты поиска нескольких поисковых систем по труднымзапросам, выявленным в рамках экспериментов конференции по информационномупоиску TREC.Обобщая результаты этих экспериментов, Д. Харман (Harman, 2005) указывала, чтопри проведении анализа исполнения трудных запросов посредством шестью разнымипоисковыми системами было выявлено, что проблемы, возникающие в процессеобработки трудных запросов этими системами, были сходны в значительно большейстепени, чем это ожидалось.
Часто системы возвращали разные документы одного и тогоже класса, не сумев найти релевантные документы. Среди потенциальных методов,которые могли бы улучшить выдачу систем по таким запросам, указывались методырасширения запросов, в том числе, и с использованием специальных ресурсов –тезаурусов.В работе (Shah, Croft, 2004) в качестве одного из существенных факторовсложного запроса для современных информационных систем называлось расхождениемежду словесной формулировкой запроса и описанием релевантных ситуаций вдокументах коллекции, что, как показано в экспериментах, можно преодолеть с помощьютезаурусов.Таким образом, одной из потенциальных возможностей преодоления проблемтекущих моделей информационного поиска является встраивание в модели поиска знаний,описанных в онтологических ресурсах.Целью этой главы является рассмотрение результатов работы методов, в которыхдля поиска документов в процессе автоматической обработки запроса используютсятезаурусы и онтологии.
Для такого изложения сначала необходимо кратко описатьсуществующие модели информационного поиска.11.1. Модели информационного поиска11.1.1. Булевская модельИсторически первой моделью информационного поиска является Булевскаямодель. В этом подходе слова запроса соединяются между собой логическими связками:AND ( & ), OR( ), NOT( ), которые могут быть сгруппированы при помощи скобок.Таким образом, запрос пользователя представляется логической формулой, в которойатомами могут быть термины или какие-либо дополнительные условия (например, типколлекции или документа, ограничение на расстояние между словами запроса и т.п.).Поисковая машина, основанная на булевом поиске, возвращает документы, длякоторых формула запроса принимает истинные значения.