Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 53
Текст из файла (страница 53)
По определению авторов работы лексическая цепочка – этопоследовательность слов текста, в которой каждое следующее слова связано некоторымотношением с предшествующими словами цепочки.Лексические цепочки не останавливаются на границах предложений и могутпроходить через целый текст. Авторы работы рассматривают лексические цепочки какважный шаг на пути к построению риторической и тематической структуры дискурса.196Эксперименты с использованием тезауруса Роже проводились вручную, посколькуна тот момент не существовало электронных версий тезауруса. С появлением тезаурусаWordNet подавляющее число экспериментов по построению лексических цепочек былопроведено с помощью этого тезауруса.В следующих подразделах будут рассмотрены некоторые из походов к построениюлексических цепочек.14.2.1 Подход Hirst and St-OngeПервой опубликованной работой, которая использовала WordNet как ресурс дляпостроения лексических цепочек, была работа (Hirst, St-Onge, 1998).
Авторыпредполагали использовать лексические цепочки для обнаружения малапропизмов, тоесть ошибок текста, в которых ошибочно написанное слово оказывается реальносуществующим словом языка, что и затрудняет обнаружение ошибки (Большакова и др.,2006)Рассмотрим, как предлагается выявлять лексическую связность текста в этойработе.Все отношения между словами, которые могут быть индикаторами лексическойсвязности, делятся на три группы: экстра-сильные, сильные и средней силы.Экстра-сильные отношения устанавливаются только между буквальнымиповторами слов.Сильные отношения устанавливаются в трех случаях:- когда два слова описаны как синонимы (human и person);- когда два слова связаны горизонтальным отношением (антонимия, подобие);- если многословное выражение – единица WordNet – включает в себяоднословное (school – private school).Сильное отношение имеет меньший вес, чем экстра-сильное и больший вес, чемотношение .средней силы.Рис.
14.2. (Hirst, St-Onge, 1998): а) запрещенные пути при построении отношенийсредней силы, б) разрешенные пути отношений средней силыОтношения средней силы возникают, когда имеется путь заданной формы междупонятиями, к которым относятся два слова. Максимальная длина пути – пять отношений.Не позволяется поворот пути «вниз-вверх». Разрешен только один поворот «вверх – вниз»197и два поворота пути следующего вида: «вверх – горизонтально - вниз». Таким образом,помимо повторов и синонимов рассматриваются как способные участвовать вобразовании лексической связности текста:- слова, являющиеся нижестоящими или частями одного и того же понятия от 1до 4 уровней;- слова, лежащие на одной иерархической линии гиперонимов, отношений целое,смешанных отношений гипероним-целое в различных вариантах (см.
рис. 14.2).Предполагается, что лексическая связность текста моделируется совокупностьюлексических цепочек слов, чьи значения близки по смыслу. Для выявления этих цепочекпредлагается следующий алгоритм:1) текст просматривается пословно с начала до конца. Просматриваются толькосуществительные.2) первое слово создает первую лексическую цепочку.3) для каждого следующего слова проверяется, связано ли оно какими-либолексически-существенными связями с предшествующими словами (исоответственно, лексическими цепочками):- если нет, то слово образует новую цепочку;- если очередное слово связано только с одной лексической цепочкой, то тудаоно и присоединяется;- если очередное слово связано с несколькими лексическими цепочками, товыбирается наиболее сильная связь.
Выбирается всегда одна лексическаяцепочка.4) в процессе такого построения цепочек происходит разрешение многозначностислов, поскольку значения, по которым не было подсоединения к существующейцепочке, удаляются.(Имеются ограничения просмотра – 7 предложений для сильных связей и3 предложения для связей средней силы).Авторы данной работы предполагали построить детектор малапропизмов,используя следующую гипотезу: слова, которые не формируют лексические цепочки сдругими словами текста, являются потенциальными малапропизмами, поскольку они какбы не соответствуют содержанию текста.
Если такое слово обнаруживается, алгоритмподыскивает слова, которые близки по написанию к данному слову и которые удаетсяприсоединить к одной из существующих лексических цепочек. Тот вариант, которыйсильнее всего оказался связанным с существующей лексической цепочкой, считаетсяправильным, то есть именно тем исходным словом, в котором произошла ошибка.Авторы протестировали свой подход на материале 500 статей Wall Street Journal, вкоторые были специально внесены малапропизмы, в среднем один малапропизм на 200слов - всего 1409. Эксперименты показали точность выявления малапропизмов – 12.5. иполноту 28.7. В дальнейшем Буданицким (Budanitsky, 1999) было показано, чтообнаружение малапропизмов может быть улучшено на основе более простого алгоритма,который анализировал семантическое расстояние между всеми терминами текста, а не наосновании отношения с одной лексической цепочкой.Тем не менее, работа (Hirst, St-Onge, 1997) оказала сильное влияние на попыткимоделирования построения лексических цепочек и применения их в разныхкомпьютерных приложениях при автоматической обработке связного текста.Оценивая построенные лексические цепочки и анализируя выявленные ошибки,авторы работы отмечали, что значительная часть ошибок в установлении лексическихцепочек связана со структурой описаний лексических единиц в WordNet.
В частности,отмечены следующие проблемы:1981) отсутствие описаний ситуационных отношений, например, связей вида Nasdaq– акция, больница – пациент;2) недостаточное количество связей между различными частями речи ;3) непоследовательность в мере семантической близости отношений WordNet.Иногда явно лексически связанные в тексте слова соединены слишкомдлинными путями в WordNet, например, как steak и stew и наоборот, то, чтокажется несвязанным в тексте, имеет короткие пути связи в WordNet (public professional);4) кроме того, часть проблем была связана с неправильным разрешениеммногозначности слов.Описанный в этом разделе алгоритм является так называемым «жадным» (greedy)алгоритмом построения лексических цепочек, поскольку построение цепочек базируетсятолько на словах, которые встречались ранее текущего кандидата. Такой алгоритм можетобразовать ложные цепочки из-за многозначности слов.Поэтому предложены также и нежадные алгоритмы построения лексическихцепочек, которые предполагают построение полной картины возможных лексическихотношениймеждукандидатами,предварительноеразрешениелексическоймногозначности и только после этого построение лексических цепочек.14.2.2.
Алгоритм StairmandПодход к построению лексических цепочек, описанный в работе (Stairmand, 1996),является примером нежадного алгоритма.Алгоритм сначала выбирает существительные-кандидаты для построениялексических цепочек. На втором этапе устанавливаются все возможные отношения междувсеми значениями кандидатов. В данном алгоритме рассматриваются такие отношениякак повторы, синонимы, гипонимы, гиперонимы, меронимы, холонимы и антонимы, такжеиспользуются пути гиперонимических отношений, для которых длина пути неограничивается.
После установления всех возможных связей между словами,порождаются лексические кластеры. Лексические кластеры в данном алгоритме неявляются взаимно исключающими, то есть одно и то же слово может относиться к разнымлексическим кластерам.На следующем шаге объединяются все лексические кластеры, относящиеся кодним и тем же значениям слов.
Это дает возможность установления транзитивныхотношений между словами, которые явным образом не указаны в WordNet.Полученные лексические кластеры разбиваются на лексические цепочки так, чтобымежду соседними элементами цепочки было не более 80 слов и каждая цепочка состоялане менее, чем из 3 слов. Эти цепочкам затем присваивается вес в зависимости от долитекста, которую занимает цепочка (фрагмент цепочки), и плотности цепочки (количествоэлементов цепочки по отношению к длине фрагмента цепочки).Stairmand применял свой подход к экспериментам по поиску документов позапросам конференции TREC и сравнивал свой подход с результатами работы известнойинформационно-поисковой системой, построенной на векторной модели, SMART (Salton,1989). Эксперименты показали, что система Stairmand находит релевантные документылучше, если слова запроса относятся к основной теме или важной подтеме документа.Однако система SMART лучше различает между документами, которые частичноотносятся к теме запроса и нерелевантными документами.
Кроме того, полнота работыалгоритма была очень низкой. Автор объясняет данную проблему недостаточнымпокрытием WordNet реальных текстов, и особенно недостаточным описаниемсобственных имен в WordNet.19914.2.3 Алгоритм Barzilay and ElhadadРассматривая методы построения лексических цепочек с использованиемлексических отношений, описанных в WordNet, авторы работы (Barzilay, Elhadad, 1999)указывают на проблему неправильного построения лексических цепочек за счет того, чтовыбор значений многозначных слов только на основе информации о предшествующихлексических цепочек не является достаточно качественным.Поэтому в данной работе предлагается выделять все значения слов текста ивстраивать их в начатые лексические цепочки.