Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 53

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 53 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 532020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 53)

По определению авторов работы лексическая цепочка – этопоследовательность слов текста, в которой каждое следующее слова связано некоторымотношением с предшествующими словами цепочки.Лексические цепочки не останавливаются на границах предложений и могутпроходить через целый текст. Авторы работы рассматривают лексические цепочки какважный шаг на пути к построению риторической и тематической структуры дискурса.196Эксперименты с использованием тезауруса Роже проводились вручную, посколькуна тот момент не существовало электронных версий тезауруса. С появлением тезаурусаWordNet подавляющее число экспериментов по построению лексических цепочек былопроведено с помощью этого тезауруса.В следующих подразделах будут рассмотрены некоторые из походов к построениюлексических цепочек.14.2.1 Подход Hirst and St-OngeПервой опубликованной работой, которая использовала WordNet как ресурс дляпостроения лексических цепочек, была работа (Hirst, St-Onge, 1998).

Авторыпредполагали использовать лексические цепочки для обнаружения малапропизмов, тоесть ошибок текста, в которых ошибочно написанное слово оказывается реальносуществующим словом языка, что и затрудняет обнаружение ошибки (Большакова и др.,2006)Рассмотрим, как предлагается выявлять лексическую связность текста в этойработе.Все отношения между словами, которые могут быть индикаторами лексическойсвязности, делятся на три группы: экстра-сильные, сильные и средней силы.Экстра-сильные отношения устанавливаются только между буквальнымиповторами слов.Сильные отношения устанавливаются в трех случаях:- когда два слова описаны как синонимы (human и person);- когда два слова связаны горизонтальным отношением (антонимия, подобие);- если многословное выражение – единица WordNet – включает в себяоднословное (school – private school).Сильное отношение имеет меньший вес, чем экстра-сильное и больший вес, чемотношение .средней силы.Рис.

14.2. (Hirst, St-Onge, 1998): а) запрещенные пути при построении отношенийсредней силы, б) разрешенные пути отношений средней силыОтношения средней силы возникают, когда имеется путь заданной формы междупонятиями, к которым относятся два слова. Максимальная длина пути – пять отношений.Не позволяется поворот пути «вниз-вверх». Разрешен только один поворот «вверх – вниз»197и два поворота пути следующего вида: «вверх – горизонтально - вниз». Таким образом,помимо повторов и синонимов рассматриваются как способные участвовать вобразовании лексической связности текста:- слова, являющиеся нижестоящими или частями одного и того же понятия от 1до 4 уровней;- слова, лежащие на одной иерархической линии гиперонимов, отношений целое,смешанных отношений гипероним-целое в различных вариантах (см.

рис. 14.2).Предполагается, что лексическая связность текста моделируется совокупностьюлексических цепочек слов, чьи значения близки по смыслу. Для выявления этих цепочекпредлагается следующий алгоритм:1) текст просматривается пословно с начала до конца. Просматриваются толькосуществительные.2) первое слово создает первую лексическую цепочку.3) для каждого следующего слова проверяется, связано ли оно какими-либолексически-существенными связями с предшествующими словами (исоответственно, лексическими цепочками):- если нет, то слово образует новую цепочку;- если очередное слово связано только с одной лексической цепочкой, то тудаоно и присоединяется;- если очередное слово связано с несколькими лексическими цепочками, товыбирается наиболее сильная связь.

Выбирается всегда одна лексическаяцепочка.4) в процессе такого построения цепочек происходит разрешение многозначностислов, поскольку значения, по которым не было подсоединения к существующейцепочке, удаляются.(Имеются ограничения просмотра – 7 предложений для сильных связей и3 предложения для связей средней силы).Авторы данной работы предполагали построить детектор малапропизмов,используя следующую гипотезу: слова, которые не формируют лексические цепочки сдругими словами текста, являются потенциальными малапропизмами, поскольку они какбы не соответствуют содержанию текста.

Если такое слово обнаруживается, алгоритмподыскивает слова, которые близки по написанию к данному слову и которые удаетсяприсоединить к одной из существующих лексических цепочек. Тот вариант, которыйсильнее всего оказался связанным с существующей лексической цепочкой, считаетсяправильным, то есть именно тем исходным словом, в котором произошла ошибка.Авторы протестировали свой подход на материале 500 статей Wall Street Journal, вкоторые были специально внесены малапропизмы, в среднем один малапропизм на 200слов - всего 1409. Эксперименты показали точность выявления малапропизмов – 12.5. иполноту 28.7. В дальнейшем Буданицким (Budanitsky, 1999) было показано, чтообнаружение малапропизмов может быть улучшено на основе более простого алгоритма,который анализировал семантическое расстояние между всеми терминами текста, а не наосновании отношения с одной лексической цепочкой.Тем не менее, работа (Hirst, St-Onge, 1997) оказала сильное влияние на попыткимоделирования построения лексических цепочек и применения их в разныхкомпьютерных приложениях при автоматической обработке связного текста.Оценивая построенные лексические цепочки и анализируя выявленные ошибки,авторы работы отмечали, что значительная часть ошибок в установлении лексическихцепочек связана со структурой описаний лексических единиц в WordNet.

В частности,отмечены следующие проблемы:1981) отсутствие описаний ситуационных отношений, например, связей вида Nasdaq– акция, больница – пациент;2) недостаточное количество связей между различными частями речи ;3) непоследовательность в мере семантической близости отношений WordNet.Иногда явно лексически связанные в тексте слова соединены слишкомдлинными путями в WordNet, например, как steak и stew и наоборот, то, чтокажется несвязанным в тексте, имеет короткие пути связи в WordNet (public professional);4) кроме того, часть проблем была связана с неправильным разрешениеммногозначности слов.Описанный в этом разделе алгоритм является так называемым «жадным» (greedy)алгоритмом построения лексических цепочек, поскольку построение цепочек базируетсятолько на словах, которые встречались ранее текущего кандидата. Такой алгоритм можетобразовать ложные цепочки из-за многозначности слов.Поэтому предложены также и нежадные алгоритмы построения лексическихцепочек, которые предполагают построение полной картины возможных лексическихотношениймеждукандидатами,предварительноеразрешениелексическоймногозначности и только после этого построение лексических цепочек.14.2.2.

Алгоритм StairmandПодход к построению лексических цепочек, описанный в работе (Stairmand, 1996),является примером нежадного алгоритма.Алгоритм сначала выбирает существительные-кандидаты для построениялексических цепочек. На втором этапе устанавливаются все возможные отношения междувсеми значениями кандидатов. В данном алгоритме рассматриваются такие отношениякак повторы, синонимы, гипонимы, гиперонимы, меронимы, холонимы и антонимы, такжеиспользуются пути гиперонимических отношений, для которых длина пути неограничивается.

После установления всех возможных связей между словами,порождаются лексические кластеры. Лексические кластеры в данном алгоритме неявляются взаимно исключающими, то есть одно и то же слово может относиться к разнымлексическим кластерам.На следующем шаге объединяются все лексические кластеры, относящиеся кодним и тем же значениям слов.

Это дает возможность установления транзитивныхотношений между словами, которые явным образом не указаны в WordNet.Полученные лексические кластеры разбиваются на лексические цепочки так, чтобымежду соседними элементами цепочки было не более 80 слов и каждая цепочка состоялане менее, чем из 3 слов. Эти цепочкам затем присваивается вес в зависимости от долитекста, которую занимает цепочка (фрагмент цепочки), и плотности цепочки (количествоэлементов цепочки по отношению к длине фрагмента цепочки).Stairmand применял свой подход к экспериментам по поиску документов позапросам конференции TREC и сравнивал свой подход с результатами работы известнойинформационно-поисковой системой, построенной на векторной модели, SMART (Salton,1989). Эксперименты показали, что система Stairmand находит релевантные документылучше, если слова запроса относятся к основной теме или важной подтеме документа.Однако система SMART лучше различает между документами, которые частичноотносятся к теме запроса и нерелевантными документами.

Кроме того, полнота работыалгоритма была очень низкой. Автор объясняет данную проблему недостаточнымпокрытием WordNet реальных текстов, и особенно недостаточным описаниемсобственных имен в WordNet.19914.2.3 Алгоритм Barzilay and ElhadadРассматривая методы построения лексических цепочек с использованиемлексических отношений, описанных в WordNet, авторы работы (Barzilay, Elhadad, 1999)указывают на проблему неправильного построения лексических цепочек за счет того, чтовыбор значений многозначных слов только на основе информации о предшествующихлексических цепочек не является достаточно качественным.Поэтому в данной работе предлагается выделять все значения слов текста ивстраивать их в начатые лексические цепочки.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.