Диссертация (1137159), страница 6
Текст из файла (страница 6)
Если ссылка на страницу не работает или страницанизкого качества, то маловероятно, что домашняя страница Yahoo! будетссылаться на нее. PageRank анализирует подобные ситуации, а такжерекурсивные ссылки нескольких страниц, посредством которых их владельцыпытаются повысить их рейтинг.291.2. Семантический поискТак же, как и в ситуации с Всемирной Сетью, рост Семантического Вебабудетобуславливатьсяразвитиемвозможностейегоприменения.Семантический поиск – это процесс поиска информации, основанный наустановлении соответствия между смысловым содержанием запроса и смысломтекста, представленного в документах целевого репозитория. Поиск являетсянаиболее популярным направлением использования Веба, это область созначительными возможностями для улучшения.
Семантический поиск пытаетсярасширить и улучшить традиционные результаты поиска (основанные натехнологиях извлечения информации) при помощи использования данных изСемантического Веба.Семантический поиск – это также процесс, используемый для улучшениярезультатовразнообразныхонлайн-поискабаззнанийпосредствомдляиспользованияразрешенияданныхнеоднозначностиизмеждупоисковыми запросами и текстами электронных документов в целях полученияболее релевантных результатов [90].
М. Хильдебранд в своей работе[89]проводит обзор существующих поисковых систем (ПС) и выделяет некоторыедругие возможности использования семантики в процессе поиска. Р.Гуха [67]выделяетдваосновныхтипапоискаинформации:навигационныйиисследовательский.В случае навигационного поиска, пользователь использует ПС какнавигационноеустройстводляпереходакконкретномудокументу,содержащему в себе текст поискового запроса. Семантический поиск неприменим к навигационному типу поиска. При исследовательском типе поискапользователь подает на вход ПС фразу, являющуюся описанием объекта, окотором пользователь пытается найти информацию. При этом не существуеткакого-то определенного документа, который ищет пользователь, напротив, онпытается найти некоторое множество документов, которые совместнопредоставят ему информацию об объекте интереса поискового запроса.Процесс семантического поиска очень широко применяется в данном типе30поиска.
В отличие от ранжирующих алгоритмов наподобие PageRank дляопределения релевантности, семантический поиск использует семантику, наукуо значениях языковых конструкций, для предоставления результатов поисканаибольшей релевантности. В большинстве случаев целью поиска являетсяпредоставление пользователю информации, запрошенной им, вместо того,чтобы предоставлять пользователю список плохо взаимосвязанных результатовпоиска по ключевым словам.Некоторые авторы ервоначально рассматривают семантический поиск какнабор техник для извлечения знаний из хорошо структурированных источниковданных, таких как онтологии, находящиеся в Смантическом Вбе [95].Традиционно под средствами семантического поиска понимаются системы,принимающиенаиспользованиемвходнекоторыйрассужденийнадзапрос,обрабатывающиеспецифическойбазойегосзнанийивозвращающие совместимые результаты [97].
Входным запросом можетявляться, например, естественно-языковой вопрос, представление вопроса припомощи триплетов[76], графическое представление, набор ключевых слов,отдельные фразы и т.д. В роли базы знаний могут выступать онтологии,аннотированные массивы текста, текстовые документы, Веб, XML[48, 78, 98,99] документы, RDF[87, 85, 83, 84] документы, HTML документы и т.д.Возвращаемые результаты могут быть представлены в виде триплетов,естественно-языковых представлений триплетов, ранжированных списковтриплетов или термов, графических представлений, ссылок на веб-сайты,ссылок на текстовые документы, ссылок на RDF документы, выдержек изтекста,онтологическихсущностей,полныхестественно-языковыхпредложений и т.д.Вобластисемантическогопоискасуществуетзначительноечислоразнообразных программных средств, которые можно разделить на триосновных класса по применяемым подходам: программные средства, специализирующиеся на семантическом поиске, основанном на структурированныхязыках запросов, таких как SPARQL[94] (например, ARQ [36]); программные31средства для поиска онтологий в Вебе (например, Swoogle[46]); и программныесредства, применяющие ориентированные на пользователя подходы для поискаи извлечения информации и знаний (например, SemSearch[74]).
Системыкаждого из этих классов обладают специфическими характеристиками с точкизрения конечных пользователей:1. Программные средства, основанные на использовании запросов наструктурированных языках, требуют от пользователей квалификации виспользованииспецифическогоязыказапросов,подразумеваязнаниелогически-ориентированных языков, чего обычно нельзя ожидать отсреднестатистического пользователя ПС. Более того, такие системы, какправило, не производят предварительную обработку результатов, т.к. они вцелом не поддерживают какой-либо естественно-языковой пользовательскийинтерфейс (ЕЯПИ).2.
Ориентированные на пользователя средства извлечения онтологическихданных из Веба, однако, в том или ином виде ЕЯПИ (как правило,поддерживается поиск по ключевым словам). Системы такого классапозволяют пользователям находить URI[38, 75] онтологических документов,представленных с помощью RDF, XML, OWL[80,79] и т.д. Такие системы также называются системами семантического поиска, потому что они зачастуюпредоставляют механизм повышения качества поиска за счет использованияонтологических концептов, таких как Organisation, Person и т.д. Тем не менее,такие системы обычно возвращают только URI объекта - результата поиска, ане какие-либо специфичные детали о нем, а также не производят обработкунайденных ответов для их представления в естественно-языковой форме.3.
Ориентированные на пользователя средства извлечения информации изнаний так же в некотором виде поддерживают естественно-языковойпользовательский интерфейс. Тем не менее, основной особенностью такогорода интерфейсов является распознавание наиболее грамматически богатыхестественно-языковых фраз и предложений. Более того, данный класспрограммных средств зачастую предоставляет предварительную обработку32результатов для их представления на естественном языке.
Такие системысфокусированы на интерпретации и представлении знаний, содержащихся врезультатах поиска, в более удобном для пользователей формате. Данныесистемы не требуют от пользователя знания сложных структурированныхязыков запросов, а так же не представляют найденные документы целиком длятого, чтобы пользователь самостоятельно их анализировал в процессе поискаинтересующего ответа.Класс средств семантического поиска, ориентированных на пользователя,представляетсянаиболееинтересным,поэтомупроведемдальнейшуюкатегоризацию подходов, представленных данным классом:1.
Подходы, основанные на ключевых словах, рассматривают естественноязыковой запрос как набор ключевых слов (“bag of words”)(например,NLPReduce[72]);2. Естественно-языковыеподходыиспользуютмоделированиелингвистической структуры поискового запроса (например, AquaLog [73]);3. Подходы, основанные на графах, сравнивают онтологические термы,используя интерфейс, основанный на графах (например, Semantic Crystal [39],SEWASIE [91], Corese [45]);4. Гибридные подходы (например, K-Search [41]).Естественно, рассматриваемые категории средств семантического поискаразличаются как с точки зрения обработки входных запросов, так и с точкизрения стратегии и формата представления результатов.
Некоторые принимаютна вход только ключевые слова или фразы, другие только целые предложенияили графическое представление запросов, а некоторые комбинируют несколькоподходов друг с другом. Некоторые даже поддерживают пользователя присоздании поискового запроса, предлагая возможные (т.е. подходящие дляданной системы) концепты, извлеченные из словаря онтологии (например,Ginseng [40]).Подходы, применяемые для получения результатов, также весьма различны.Некоторые средства семантического поиска используют методы извлечения33информации, такие как сравнение шаблонов, извлечение информации ирассуждения, также как и логические подходы для определения корректногоответа. Другие средства сканируют Интернет как огромное собраниедокументов в противоположность другой группе средств, которые анализируютбольшие корпусы текстовых документов, таких как новости или статьиWikipedia. Иной класс средств запрашивает информацию из баз данных,использует XML базы данных для анализа или применяет одну или несколькосемантических баз знаний, таких как онтологии, для того, чтобы получитьрезультат поиска.
Некоторые из средств даже используют техники машинногоперевода для предоставления возможности ответов на мульти-языковыезапросы. Более того, существуют гибридные системы, комбинирующие всеразнообразие методов анализа, поиска результатов и источников знаний(например, K-Search[41]).В последние годы применяемые в семантическом поиске подходы весьмаразнообразны:увеличениесемантическойрелевантностипосредствомдополнительного синтаксического анализа и использования обнаруженныхданных RDF[68], анализ поисковых запросов и документов на основе триплетовсиспользованиемонтологиипредметнойобласти[76],использованиеавтоматически сгенерированных онтологий при поиске[51], вопросно-ответныесистемы на основе семантических графов и анализа триплетов[47], извлечениесемантических отношений естественного языка с помощью шаблоновграмматических зависимостей[32] и многие другие.1.3. Естественно-языковые поисковые системыЕстественно-языковой поисковой системой (ЕЯПС) называется поисковаясистема, спроектированная для поиска информации в указанных источниках,использующая при поиске методики анализа текстов, представленных наестественном языке (ЕЯ).Наиболее распространенным типом таких поисковых систем (ПС) являютсявопросно-ответныесистемы,множествовходныхзапросовкоторых34представлено на ЕЯ.
Естественно-языковой поиск является одной из основныхцелей в разработке Семантического Веба.ЕЯПС должна находить целевые ответы на запросы (вопросы наестественном языке) пользователя, в чем и заключается ее отличие от системпоиска по ключевым словам. Например, когда в традиционную ПС подаетсязапрос «В каком из штатов США самый высокий подоходный налог?», тосистема игнорирует его вопросительную форму и осуществляет поиск поключевым словам {«штат», «доход», «налог»} (набор ключевых слов зависитнепосредственно от поисковой системы и будет отличаться для двух отдельновзятых поисковых машин).
С другой стороны, ЕЯПС пытается определитьсемантику вопроса, используя методики естественно-языкового анализа, изатем найти и вернуть подмножества репозитория U, документы которогосодержат в себе ответ на заданный вопрос. Если поисковый запрос на ЕЯпроанализирован корректно, то результаты, возвращаемые ПС такого типа,будут иметь гораздо более высокую степень релевантности по сравнению ссистемой поиска по ключевым словам.ЗачастуюЕЯПСтрадиционнымииспользуютпоисковымидлясистемами.поискаЕслиданные,возвращаемыеколичествоисточниковпревосходит один, то такая система называется системой метапоиска.Система метапоиска – это поисковый механизм, пересылающий запроспользователя нескольким другим поисковым системам, базам данных или базамзнаний и либо агрегирующий результаты запросов в единый список, либоотображающий их, группируя по принадлежности к источнику.