Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 46

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 46 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 462020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 46)

рис. 12.1).Прежде всего, производится подробный анализ вопроса, в результате которогоопределяется тип вопроса (вопрос времени, места, количества и другие) исоответствующий тип ответа, а также формируется запрос к информационно-поисковойсистеме.На втором этапе производится поиск релевантных документов или абзацевинформационно-поисковой системой, формируется упорядоченный список наиболеерелевантных документов (абзацев), из которого выбирается первых n (например, n=1001000) документов (абзацев) для дальнейшей обработки.На третьем этапе производится подробный анализ полученных абзацев: содержитли абзац требуемый тип ответа, близость слов ответа и вопроса, сходство синтаксическихструктур и т.п.

В ходе такого анализа полученные абзацы оцениваются по меревозможности вхождения в них ответа на заданный вопрос, и переупорядочиваются наоснове полученных оценок.ВопросАнализ вопросаКоллекциядокументовWEBЗапросПредставлениевопросаИнформац.поисковаясистемаРелевант.документыИзвлечениеответаИндексОтветРис. 12.1 Основные этапы обработки вопроса и формирования ответавопросно-ответной системойОбработка поискового запроса в рамках вопросно-ответной системы имеет своюспецифику по сравнению с обработкой типичного запроса при поиске в Интернет. Какизвестно, запросы в глобальных информационно-поисковых системах обычно оченькороткие - 2-3 слова, и по ним находятся сотни и тысячи документов. Запросы в формевопросов обычно значительно длиннее, поэтому если требовать присутствия в документесразу всех слов запроса, то чаще всего не будет найдено ни одного документа, чтоозначает, что поисковая система должна автоматически определить, какие слова такогозапроса должны быть отброшены или заменены.Классическая векторная модель на основе сравнения векторов запроса и документапозволяет найти наиболее релевантные документы и по частично совпадающему запросу.слов запроса (Сегалович, Маслов, 2004).

Однако при формальном выполнении пословныхвекторых моделей важные для ответа слова вопроса могут быть автоматически173отброшены, поэтому в некоторых современных исследованиях по вопросно-ответнымсистемам стали использоваться не векторные модели поиска, а выполняется булевскийпоиск.Использование булевской модели поиска, которая при выполнении стандартногоинформационного поиска, считается менее качественной, чем векторная модель, связано стем, что при выполнении задачи сокращения формулировки запроса необходимоосуществлять дополнительный контроль, какие слова формулировки вопроса обязательнодолжны присутствовать в тексте ответа, а какие могут быть пропасть в тексте ответа сминимальным ущербом для релевантности ответа (Harabagiu и др., 2000; Kupiec, 1993;Hovy и др., 2001).

Так, в своем докладе на семинаре ELECTRA 2005 (Vechtomova и др.,2005) известный американский исследователь в области информационного поиска БрюсКрофт отметил, что тогда как для коротких запросов хорошо работают пословныемодели, то для сложных вопросов, значение которых формируется на базе отношениймежду концептами, важно использовать отношения между словами.Булевское выражение обычно формируется как конъюнкция всех значимых словформулировки вопроса.

Если проводится морфологический анализ запроса илидобавляются синонимы, то они объединяются в дизъюнкцию.Например, если задан вопрос When did Shapour Bakhtiar die?, то может бытьобразовано следующее булевское выражение:Shapour AND BakhtiarAND (die OR dies OR died OR dying OR died OR death)Поскольку стандартной является ситуация, когда не находится документов,которые содержат все значимые слова вопроса, поэтому при обработке вопроса частонеобходимо определить, какие именно слова формулировки вопроса можно отбросить, невключить в поисковый запрос без потери сути вопроса. Например, следующему вопросу«Кто из великих целителей прошлого написал трактат "О медицине―?» может частичносоответствовать два предложения (выделены слова из исходной формулировки запроса):1) ЦЕЛЬС (Celsus) Авл Корнелий (I в.

до н. э.), древнеримский авторэнциклопедических трудов «Artes» (сохранился трактат "О медицине", книги 1 8, с ценными сведениями по гигиене, хирургии, дерматологии)2) А.Е. Ферсман приводит отрывок из трактата "Сокровищница лекарств",написанного арабским целителем около тысячи лет назад: "Ношение бирюзы…Первое из предложений содержит правильный ответ ЦЕЛЬС, во второмпредложении кандидатом на ответ является А.Е.Ферсман, что неверно.Для более точного определения, какие именно слова могут формулировки вопросамогут быть отброшены, обычно предлагается система модификаций, упрощающихисходное булевское выражение, после каждой из которых опять происходит обращение кпоисковой системе для проверки, не появились ли релевантные документы.Обычно используются два основных способа упрощения булевского выражения.Во-первых, можно часть конъюнкций переводить в дизъюнкции.Вторым способом является поочередное исключение членов конъюнкции, наоснове некоторого множества эвристик, определяющих значимость членов конъюнкции.Значимость членов конъюнкции может определяться на основе их грамматическиххарактеристик в формулировке вопроса.

Так, наиболее значимыми обычно считаютсяимена, фразы в кавычках, а наименее значимыми считаются глаголы.Процесс исключения элементов из конъюнкции прекращается, когда количестводокументов (абзацев) в выдаче достигает заданного числа (например, 50) или до тех пор,пока не остается заданный процент слов исходной формулировки вопроса.17412.2. Роль лексических ресурсов в работе вопросно-ответных системВ связи с длинной формулировкой естественно-языкового вопроса и частымотсутствием в самых больших текстовых коллекциях ответов, содержащих все илибольшинство слов формулировки вопроса, значимой становится роль лексическихресурсов, позволяющих найти ответы в тех предложениях, в которых часть слов замененана близкие по смыслу слова.Так, например, ответ на вопрос: Почему электрические батареи быстрееразряжаются на холоде? может быть следующим: Батарейки быстрее садятся наморозе, потому что..», при этом ответе три слова исходного запроса были заменены наблизкие по смыслу слова.

Практически каждое слово вопроса имеет соответствующееслово в ответе, при этом сделано 3 лексические замены.Таким образом, роль лексических ресурсов, онтологий, тезаурусов при обработкевопросов в вопросно-ответных системах представляется достаточно важной.Многие современные вопросно-ответные системы используют в качествелексического источника WordNet. В таких системах WordNet может использоваться длярешения следующих задач:- распознавания типа вопроса;- классификации типов ответов;- для реализации лексических и семантических замен.В следующем разделе рассмотрим принципы работы одной из известныхвопросно-ответных систем и применяемые методы использования информации изWordNet при обработке вопросов.12.2.1. WordNet в вопросно-ответной системеЮжного Методистского университета СШАОдной из самых эффективных систем в вопросно-ответной дорожке конференцииTREC 1999 стала вопросно-ответная система Южного Методистского университета,которая на нескольких этапах обработки вопроса и поиска ответа обращается кинформации, хранимой в тезаурусе WordNet.Лексические и семантические замены в системе осуществляются в моментсопоставления формальной структуры вопроса и ответа.

Поиск документов организованна основе обработки булевских запросов, в качестве единиц поиска выступают не целыедокументы, а абзацы (Harabagiu и др., 2000, Moldovan и др., 1999).На этапе обработки вопроса WordNet используется для определения типа вопроса итипа ответа. Например, если вопрос начинается со слов «what company» - этот вопросклассифицируется как вопрос об организации. При этом на некоторые типы вопросов,кандидаты-ответы могут получены непосредственно из WordNet. Например, если задантакой вопрос как «What flowers did Van Gogh paint?» (Какие цветы рисовал Ван Гог), томожет быть извлечен список всех 470 видов цветов, упомянутых в WordNet, ииспользован для проверки в качестве подходящего ответа.Для организации поиска ответов была разработана классификация ответов навопросы конференции TREC, которая включала такие типы, как: время, дата, продукция,организация, деньги, место, язык, человек.После этого WordNet был преобразован в таксономию ответов, релевантныесинсеты были сгруппированы под своим типом ответа, а нерелевантные синсеты былиудалены.

В результате полученная таксономия ответов включала 8707 синсетов, 20верхних типов. Было добавлено 129 отношений, отсутствующих в WordNet, но полезныхдля ответов на вопрос.Таким образом, в значительной мере для нужд классификации вопросов и ответовна основе информации WordNet был построен новый ресурс, настроенный на вопросы,предлагаемые в рамках конференции TREC.175На основе проделанной работы была достигнута правильная идентификация типаответа для 79% вопросов на конференции TREC-9.Как уже указывалось, при формулировании запроса к информационной системечасто возникает необходимость удаления некоторых слов формулировки вопроса.

Помимонаписания (с большой буквы или нет, использование кавычек) и учета частей речи вданной системе используется иерархия WordNet.Для этого вводится понятие специфичности, которое подсчитывается как числогипонимов за исключением конкретных имен и гипонимов с тем же главным словом. Еслиполученное число меньше порога (10), то оно считается специфичным, важным длявопроса и не отбрасывается. По этому правилу из запроса можно исключить слово город(city), и нельзя исключить слово биохимик (biochemist).В данной вопросно-ответной системе WordNet совместно с серией булевскихзапросов используется для подбора необходимых лексических и семантических заменНапример, такая замена нужна для ответа на следующий вопрос:Вопрос: What is the highest mountain in the world?(Какая самая высокая гора в мире)Ответ: …first African country to send an expedition to Mount Everest, the world’shighest peak.(… первая африканская страна послала экспедицию к горе Эверест, самомувысокому пику в мире).При обработке формулировки запроса строится синтаксическая структурапредложения, которая называется семантической формой запроса, а также создаетсябулевское выражение, состоящее из слов запроса.

Выполняется поиск и отбираютсяабзацы текста, удовлетворяющие запросу и содержащие, по крайней мере, одно языковоевыражение, подходящее по типу к требуемому типу ответа.После этого могут быть инициализированы три цикла расширения запроса.Первый цикл возникает, если получено слишком мало абзацев. В таких случаяхзапрос расширяется на основе морфологических форм слов и номинализации глаголов(существительных, являющихся однокоренными к данному глаголу). Такой расширенныйзапрос опять отправляется в поисковую систему для поиска релевантных абзацев.Второй цикл расширения возникает, если не удается провести унификациюсемантических форм вопроса и ответа.

В таких случаях добавляются синонимы, прямыегипонимы и гиперонимы. Расширенный булевский запрос опять отправляется впоисковую систему. Например, при обработке вопроса Who killed Martin Luther King?(Кто убил Мартина Лютера Кинга) делается цепочка вывода Kill – killer –гипонимassassin, которая позволяет найти правильный ответ.Третий цикл расширения возникает, если не удается доказать правильность ответа.На этом шаге делается расширение запроса на основе толкований синсетов WordNet.Например, для ответа на вопрос: Where do lobsters like to live? (Где предпочитают житьлобстеры?) удалось использовать главное слово в толковании глагола prefer – like.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.