Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 46
Текст из файла (страница 46)
рис. 12.1).Прежде всего, производится подробный анализ вопроса, в результате которогоопределяется тип вопроса (вопрос времени, места, количества и другие) исоответствующий тип ответа, а также формируется запрос к информационно-поисковойсистеме.На втором этапе производится поиск релевантных документов или абзацевинформационно-поисковой системой, формируется упорядоченный список наиболеерелевантных документов (абзацев), из которого выбирается первых n (например, n=1001000) документов (абзацев) для дальнейшей обработки.На третьем этапе производится подробный анализ полученных абзацев: содержитли абзац требуемый тип ответа, близость слов ответа и вопроса, сходство синтаксическихструктур и т.п.
В ходе такого анализа полученные абзацы оцениваются по меревозможности вхождения в них ответа на заданный вопрос, и переупорядочиваются наоснове полученных оценок.ВопросАнализ вопросаКоллекциядокументовWEBЗапросПредставлениевопросаИнформац.поисковаясистемаРелевант.документыИзвлечениеответаИндексОтветРис. 12.1 Основные этапы обработки вопроса и формирования ответавопросно-ответной системойОбработка поискового запроса в рамках вопросно-ответной системы имеет своюспецифику по сравнению с обработкой типичного запроса при поиске в Интернет. Какизвестно, запросы в глобальных информационно-поисковых системах обычно оченькороткие - 2-3 слова, и по ним находятся сотни и тысячи документов. Запросы в формевопросов обычно значительно длиннее, поэтому если требовать присутствия в документесразу всех слов запроса, то чаще всего не будет найдено ни одного документа, чтоозначает, что поисковая система должна автоматически определить, какие слова такогозапроса должны быть отброшены или заменены.Классическая векторная модель на основе сравнения векторов запроса и документапозволяет найти наиболее релевантные документы и по частично совпадающему запросу.слов запроса (Сегалович, Маслов, 2004).
Однако при формальном выполнении пословныхвекторых моделей важные для ответа слова вопроса могут быть автоматически173отброшены, поэтому в некоторых современных исследованиях по вопросно-ответнымсистемам стали использоваться не векторные модели поиска, а выполняется булевскийпоиск.Использование булевской модели поиска, которая при выполнении стандартногоинформационного поиска, считается менее качественной, чем векторная модель, связано стем, что при выполнении задачи сокращения формулировки запроса необходимоосуществлять дополнительный контроль, какие слова формулировки вопроса обязательнодолжны присутствовать в тексте ответа, а какие могут быть пропасть в тексте ответа сминимальным ущербом для релевантности ответа (Harabagiu и др., 2000; Kupiec, 1993;Hovy и др., 2001).
Так, в своем докладе на семинаре ELECTRA 2005 (Vechtomova и др.,2005) известный американский исследователь в области информационного поиска БрюсКрофт отметил, что тогда как для коротких запросов хорошо работают пословныемодели, то для сложных вопросов, значение которых формируется на базе отношениймежду концептами, важно использовать отношения между словами.Булевское выражение обычно формируется как конъюнкция всех значимых словформулировки вопроса.
Если проводится морфологический анализ запроса илидобавляются синонимы, то они объединяются в дизъюнкцию.Например, если задан вопрос When did Shapour Bakhtiar die?, то может бытьобразовано следующее булевское выражение:Shapour AND BakhtiarAND (die OR dies OR died OR dying OR died OR death)Поскольку стандартной является ситуация, когда не находится документов,которые содержат все значимые слова вопроса, поэтому при обработке вопроса частонеобходимо определить, какие именно слова формулировки вопроса можно отбросить, невключить в поисковый запрос без потери сути вопроса. Например, следующему вопросу«Кто из великих целителей прошлого написал трактат "О медицине―?» может частичносоответствовать два предложения (выделены слова из исходной формулировки запроса):1) ЦЕЛЬС (Celsus) Авл Корнелий (I в.
до н. э.), древнеримский авторэнциклопедических трудов «Artes» (сохранился трактат "О медицине", книги 1 8, с ценными сведениями по гигиене, хирургии, дерматологии)2) А.Е. Ферсман приводит отрывок из трактата "Сокровищница лекарств",написанного арабским целителем около тысячи лет назад: "Ношение бирюзы…Первое из предложений содержит правильный ответ ЦЕЛЬС, во второмпредложении кандидатом на ответ является А.Е.Ферсман, что неверно.Для более точного определения, какие именно слова могут формулировки вопросамогут быть отброшены, обычно предлагается система модификаций, упрощающихисходное булевское выражение, после каждой из которых опять происходит обращение кпоисковой системе для проверки, не появились ли релевантные документы.Обычно используются два основных способа упрощения булевского выражения.Во-первых, можно часть конъюнкций переводить в дизъюнкции.Вторым способом является поочередное исключение членов конъюнкции, наоснове некоторого множества эвристик, определяющих значимость членов конъюнкции.Значимость членов конъюнкции может определяться на основе их грамматическиххарактеристик в формулировке вопроса.
Так, наиболее значимыми обычно считаютсяимена, фразы в кавычках, а наименее значимыми считаются глаголы.Процесс исключения элементов из конъюнкции прекращается, когда количестводокументов (абзацев) в выдаче достигает заданного числа (например, 50) или до тех пор,пока не остается заданный процент слов исходной формулировки вопроса.17412.2. Роль лексических ресурсов в работе вопросно-ответных системВ связи с длинной формулировкой естественно-языкового вопроса и частымотсутствием в самых больших текстовых коллекциях ответов, содержащих все илибольшинство слов формулировки вопроса, значимой становится роль лексическихресурсов, позволяющих найти ответы в тех предложениях, в которых часть слов замененана близкие по смыслу слова.Так, например, ответ на вопрос: Почему электрические батареи быстрееразряжаются на холоде? может быть следующим: Батарейки быстрее садятся наморозе, потому что..», при этом ответе три слова исходного запроса были заменены наблизкие по смыслу слова.
Практически каждое слово вопроса имеет соответствующееслово в ответе, при этом сделано 3 лексические замены.Таким образом, роль лексических ресурсов, онтологий, тезаурусов при обработкевопросов в вопросно-ответных системах представляется достаточно важной.Многие современные вопросно-ответные системы используют в качествелексического источника WordNet. В таких системах WordNet может использоваться длярешения следующих задач:- распознавания типа вопроса;- классификации типов ответов;- для реализации лексических и семантических замен.В следующем разделе рассмотрим принципы работы одной из известныхвопросно-ответных систем и применяемые методы использования информации изWordNet при обработке вопросов.12.2.1. WordNet в вопросно-ответной системеЮжного Методистского университета СШАОдной из самых эффективных систем в вопросно-ответной дорожке конференцииTREC 1999 стала вопросно-ответная система Южного Методистского университета,которая на нескольких этапах обработки вопроса и поиска ответа обращается кинформации, хранимой в тезаурусе WordNet.Лексические и семантические замены в системе осуществляются в моментсопоставления формальной структуры вопроса и ответа.
Поиск документов организованна основе обработки булевских запросов, в качестве единиц поиска выступают не целыедокументы, а абзацы (Harabagiu и др., 2000, Moldovan и др., 1999).На этапе обработки вопроса WordNet используется для определения типа вопроса итипа ответа. Например, если вопрос начинается со слов «what company» - этот вопросклассифицируется как вопрос об организации. При этом на некоторые типы вопросов,кандидаты-ответы могут получены непосредственно из WordNet. Например, если задантакой вопрос как «What flowers did Van Gogh paint?» (Какие цветы рисовал Ван Гог), томожет быть извлечен список всех 470 видов цветов, упомянутых в WordNet, ииспользован для проверки в качестве подходящего ответа.Для организации поиска ответов была разработана классификация ответов навопросы конференции TREC, которая включала такие типы, как: время, дата, продукция,организация, деньги, место, язык, человек.После этого WordNet был преобразован в таксономию ответов, релевантныесинсеты были сгруппированы под своим типом ответа, а нерелевантные синсеты былиудалены.
В результате полученная таксономия ответов включала 8707 синсетов, 20верхних типов. Было добавлено 129 отношений, отсутствующих в WordNet, но полезныхдля ответов на вопрос.Таким образом, в значительной мере для нужд классификации вопросов и ответовна основе информации WordNet был построен новый ресурс, настроенный на вопросы,предлагаемые в рамках конференции TREC.175На основе проделанной работы была достигнута правильная идентификация типаответа для 79% вопросов на конференции TREC-9.Как уже указывалось, при формулировании запроса к информационной системечасто возникает необходимость удаления некоторых слов формулировки вопроса.
Помимонаписания (с большой буквы или нет, использование кавычек) и учета частей речи вданной системе используется иерархия WordNet.Для этого вводится понятие специфичности, которое подсчитывается как числогипонимов за исключением конкретных имен и гипонимов с тем же главным словом. Еслиполученное число меньше порога (10), то оно считается специфичным, важным длявопроса и не отбрасывается. По этому правилу из запроса можно исключить слово город(city), и нельзя исключить слово биохимик (biochemist).В данной вопросно-ответной системе WordNet совместно с серией булевскихзапросов используется для подбора необходимых лексических и семантических заменНапример, такая замена нужна для ответа на следующий вопрос:Вопрос: What is the highest mountain in the world?(Какая самая высокая гора в мире)Ответ: …first African country to send an expedition to Mount Everest, the world’shighest peak.(… первая африканская страна послала экспедицию к горе Эверест, самомувысокому пику в мире).При обработке формулировки запроса строится синтаксическая структурапредложения, которая называется семантической формой запроса, а также создаетсябулевское выражение, состоящее из слов запроса.
Выполняется поиск и отбираютсяабзацы текста, удовлетворяющие запросу и содержащие, по крайней мере, одно языковоевыражение, подходящее по типу к требуемому типу ответа.После этого могут быть инициализированы три цикла расширения запроса.Первый цикл возникает, если получено слишком мало абзацев. В таких случаяхзапрос расширяется на основе морфологических форм слов и номинализации глаголов(существительных, являющихся однокоренными к данному глаголу). Такой расширенныйзапрос опять отправляется в поисковую систему для поиска релевантных абзацев.Второй цикл расширения возникает, если не удается провести унификациюсемантических форм вопроса и ответа.
В таких случаях добавляются синонимы, прямыегипонимы и гиперонимы. Расширенный булевский запрос опять отправляется впоисковую систему. Например, при обработке вопроса Who killed Martin Luther King?(Кто убил Мартина Лютера Кинга) делается цепочка вывода Kill – killer –гипонимassassin, которая позволяет найти правильный ответ.Третий цикл расширения возникает, если не удается доказать правильность ответа.На этом шаге делается расширение запроса на основе толкований синсетов WordNet.Например, для ответа на вопрос: Where do lobsters like to live? (Где предпочитают житьлобстеры?) удалось использовать главное слово в толковании глагола prefer – like.