Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 44

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 44 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 442020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 44)

Исследования влияния качества разрешения лексической многозначностина информационный поискВопрос о том, улучшит ли разрешение многозначности слова, поиск по словам вправильном значении, остается дискуссионным. Некоторые авторы (Voorhees, Stevenson)полагают, что если запрос однозначно определяет значение многозначного слова в своемсоставе, то и в найденных документах, это слово окажется в окружении тех же словзапроса, и тем самым с большой вероятностью будет употребляться в том же значении.Если же выполняется автоматическая процедура разрешения лексическоймногозначности, то ошибки в работе этой процедуры могут привести к значительномуснижению качества информационного поиска, как это и было показано в экспериментахН.Voorhees (Voorhees, 1994). В работе (Stevenson, 1994) автор вводит в коллекциюискусственную многозначность и тем самым может контролировать процент ееошибочного разрешения.

В исследовании было показано, что при качестве разрешениямногозначности хуже 90% эффективность информационного поиска начинает резкоснижаться.В исследовании (Gonzalo и др., 1998) авторы ставят перед собой два вопроса:1) Абстрагируясь от проблемы разрешения многозначности, какой потенциалнесет использование ресурсов типа WordNet для информационного поиска.Такой эксперимент можно выполнить, если сделать вручную разрешениелексической многозначности запросов и документов;2) Если эффективность использования WordNet для коллекции с разрешенноймногозначностью известна, то можно измерить чувствительность качестваинформационного поискак ошибкам разрешения многозначности,искусственно внося некоторый процент ошибок в разметку по значениям.Исследования выполнялись на корпусе SemCor, размеченного значениямиWordNet. Были выбраны 171 текстовых фрагментов со средней длиной 1331 словом надокумент.

Для каждого текста была написана краткая аннотация длиной от 4 до 50 слов, всреднем 22 слова на документ. Эти аннотации использовались как запросы по текстовойколлекции, то есть был ровно 1 релевантный документ на запрос. Аннотации также былиразмечены по значениям WordNet.

На основе стандартного списка стоп-слов английскогоязыка был также автоматически порожден список стоп-синсетов.В экспериментах использовалась векторная модель в версии информационнопоисковой системы SMART (Salton, 1989) и три типа векторов: исходные словадокумента, значения слов, соответствующие словам документа, и синсеты WordNet,соответствующие словам документа (в последнем случае фактически производитсядополнение документа синонимами слов).В процессе эксперимента выяснялось, какой процент документов был возвращен напервом месте в выдаче.Эксперименты показали, что стандартная векторная модель дает 48% первыхрелевантных документов, индексирование по значениям слов – 53.2% и индексированиепо синсетам – 62%.Внесение ошибок разрешения многозначности в индексирование по синсетампоказало, что 10% ошибок не влияет на качество поиска, что находится в соответствии сработой (Sanderson, 1994).

При этом выяснилось, что при уровне 30% ошибок качествопоиска превосходит поиск по стандартной модели SMART (54.4%). Таким образом,авторы делают вывод, что если выполнять разрешение многозначности с точностьюбольше 70%, то это даст преимущество по сравнению с пословными векторнымимоделями. Важно однако заметить, что за прошедшее время векторные моделизначительно усложнились, включая поиск близких по тексту терминов, поиск по абзацами др.166Для того чтобы изучить, насколько в приложениях информационного поискаможно использовать системы разрешения многозначности с такими показателями, врамках конференции SemEval-2007 (http://nlp.cs.swarthmore.edu/semeval/), одним иззаданий которой является применение алгоритмов разрешения многозначности в рамкахзадачи информационного поиска (Agirre и др., 2007). Суть задания заключается вследующем: все участники должны выполнять поиск на одной и той же поисковоймашине, однако перед поиском необходимо расширить запросы или тексты синонимамиили переводами, соответствующими выбранным значениям.Было предложено три подзадания:- информационный поиск с автоматическим разрешением многозначностизапроса - системы должны автоматически разрешить многозначность словзапроса, расширить запрос синонимами, соответствующими этим значениям ивыполнить расширенный поисковый запрос.

Документы и запросы наанглийском языке;- информационный поиск с автоматическим разрешением многозначностидокумента – системы должны автоматически разрешить многозначность слов вдокументах, расширить документы синонимами, соответствующими этимзначениям и выполнить поиск на основе исходного поискового запроса;- двуязычный поиск (с испанского на английский) – для документовавтоматически производится разрешение многозначности, документыпереводятся в соответствии с полученными результатами разрешения и затемвыполняется поиск с использованием исходного поискового запроса.Результаты систем сравниваются с базисными уровнями: поиск без расширений(noexp), и поиск с полным расширением запросы расширяются синонимами,соответствующими всем возможным значениям (expall).В проведенных экспериментах в одноязычном поиске лучший результат былполучен при поиске без расширения синонимами noexp - 0.3599 MAP, в двуязычноминформационном поиске использованием переводов по всем значениям expall - 0.2617MAP.Таким образом, в первом проведенном соревновании с использованием методовавтоматического разрешения многозначности системам не удалось получить результаты,превышающие результаты методов, не использующих процедуру автоматическогоразрешения многозначности.Организаторы процедуры оценки связывают часть проблем с выбранной базовойсистемой поиска и намерены продолжать исследования роли автоматического разрешениямногозначности в информационном поиске.11.3.4.

Эксперимент по встраиванию тезауруса WordNet ввероятностную модель информационного поискаВ работе (Liu и др., 2004) в качестве базовой модели информационного поискаиспользуется формула OKAPI (Robertson, 1994), к которой добавлен поиск по фразам ииспользуется расширение запроса по отношениям WordNet. После разрешениямногозначности слов к запросудобавляются синонимы, гипонимы и слова изопределений синсетов.

Основное свое внимание авторы концентрируют на короткихзапросах (двух или трехсловных запросах).Значение многозначного слова в запросе выбирается на основе толкованийсинсетов WordNet. Значение слова в запросе может быть выбрано, если:- его толкование пересекается с другими словами запроса;- пересечение его толкования с толкованиями других слов запроса максимально,- толкование одного из его гипонимов пересекается с другими словами запроса,- если никакие проверки не привели к выбору значения слова, то беретсянаиболее частотное значение.167Выбранные значения используются не для того, чтобы построить концептуальныйиндекс (индекс синсетов), а для того, чтобы найти подходящее расширение запроса.Учитывая предшествующие неудачи использования WordNet для расширениязапросов, авторы вводят дополнительные проверки возможности расширения, а также весрасширения.

Важным элементом проверки возможности расширения запросов являетсяпредварительная оценка глобальной корреляции между отдельными словами.Для оценки глобальной корреляции между словами используется следующаяформула:Global_correlation (ti,s)=idf(s)*log(dev(ti,s)),dev (ti,s) = (co-occurrence (ti,s)-dfi*sdf/N)/( dfi*sdf/N)(11.15)(11.16)где s – элемент запроса (отдельное слово или словарное выражение), ti – некотороедругое выражение, dfi и sdf – это количество документов, содержащее ti и sсоответственно, N – число документов в коллекции, idf (s) – обратная частотавстречаемости s, co-occurrence (ti,s)- число документов, в которых встречаются ti и s, dev(ti,s) показывает степень отклонения совместной встречаемости ti и s от независимогоупотребления.Рассмотрим, как авторы предлагают расширять запрос, состоящий из двух термовt1 и t2, синонимами.Терм t11, который является синонимом к терму запроса t1 в синсете S, может бытьдобавлен в качестве расширения запроса, в одном из двух случаев:- или S – является доминантным синсетом для терма t11, то есть t11 наиболеечасто употребляется в значении, соответствующем синсету S;- или t2 имеет высокую степень корреляции с t11, и величина корреляции междуt2 и t11 больше, чем величина корреляции между t2 и t1.- При этом расширение производится со следующим весом:w(t11)=f (t11,S)/F(t11)(11.17)где f (t11,S) - это частота встречаемости терма t11 в значении S, F(t11) – это суммавсех частот для всех значений t11.

Частота значений берется из информации, приписаннойсинсетам в WordNet, которая, в свою очередь, получена на основе разметки текстовогокорпуса значениями WordNet. Этот вес интерпретируется как вероятность того, что термt11 имеет значение S.Для расширения запроса гипонимами проводятся проверки другого рода.Пусть U – синсет-гипоним для t1.

Синоним из U добавляется к запросу вследующих случаях:1) U - это единственный гипоним синсета S терма t1. Для каждого терма t11 из Uэтот терм добавляется к запросу, с весом (11.17), если U – это доминантныйсинсет t11;2) U – это не единственный гипоним синсета S терма t1, при этом определение Uсодержит либо термин t2 или его синонимы. Тогда для каждого терма t11 из Uэтот терм добавляется к запросу, с весом (11.17), если U – это доминантныйсинсет t11.Авторы работы показывают на пяти разных текстовых коллекциях конференцииTREC, что применение технологии разрешения многозначности к коротким запросам и наэтой основе расширение запроса приводит к росту средней точности поиска от 4% до34%.16811.3.5.

Эксперимент по использованию WordNet врамках языковой модели информационного поискаРезультаты по улучшению информационного поиска с использованием WordNet иинформации о совместной встречаемости слов в рамках языковой моделиинформационного поиска получены в работе (Cao и др., 2005).Авторыработыподчеркивают,чтоклассическаяязыковаямодельинформационного поиска основана на независимости слов в текстах друг от друга, что несоответствует реальному положению дел.Информацию о взаимосвязи слов можно получить из двух источников:- во-первых, подсчитывая совместную встречаемость слов в некоторомтекстовом окне.- во-вторых, извлекая вручную описанные отношения из WordNet, посколькунекоторые указанные лингвистами отношения между словами может бытьневозможно извлечь из рабочей коллекции.

При этом отношениям из WordNetпредлагается приписывать вес также на основе их совместной встречаемости втекстовом окне заданной величины.Таким образом, оценивая вероятность порождения запроса из документа,предлагается использовать три источника информации по следующей формуле:P(q|d)=I=1 [LPL(qi|d) + COPCO(qi|d) + UPU(qi|d)],(11.18)где PU(qi|d)] – вероятность, полученная по классической униграммной языковоймодели, - далее модель UM.PL(qi|d) – вероятность порождения запроса из документа, полученная на основеотношений лингвистического ресурса WordNet, - далее модель LMPCO(qi|d) -– вероятность порождения запроса из документа, полученная на основесовместной встречаемости двух слов в текстовом окне, - далее модель CM.L, CO, U –подбираемые коэффициенты.Исследовался и другой вариант формулы, который приписывал отдельные весаразным типам связей WordNet: синонимам, гипонимам и гиперонимам:P(q|d)=I=1 [1PSYN(qi|d) + 2PHYPE(qi|d)+3PHYPO(qi|d)+4PCO(qi|d) + 5PU(qi|d)],(11.19)где 1…5 – весовые коэффициенты каждого типа отношений.В базовой униграммной языковой модели в качестве формулы сглаживанияиспользовалась формула абсолютного дисконтирования (см.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее