Диссертация (1137159), страница 7
Текст из файла (страница 7)
Системыметапоиска позволяют пользователям один раз задавать критерии поиска изатем получать доступ к результатам работы нескольких ПС одновременно.Предпосылкой существования и функционирования таких систем являетсято, что Интернет (Веб) слишком огромен для индексирования любой отдельновзятой ПС, и более комплексные результаты поиска могут быть полученыобъединением результатов работы нескольких поисковых систем. Это такжепредоставляет пользователям возможность пользоваться одной поисковой35системой, вместо нескольких различных. С точки зрения программнойреализации, системы метапоиска являются гибридными приложениями.Зачастую, в системах ЕЯ-поиска используются методы машинного обучения–научнойдисциплины,посвященнойпроектированиюиразработкеалгоритмов, позволяющих компьютерам адаптировать свое поведение взависимости от эмпирической информации, поступающей извне (например, избазы данных или какой-либо внешней системы).1.3.1 Обзор зарубежных естественно-языковых поисковых системРассмотрим некоторые из существующих и функционирующих зарубежныхЕЯПС.
Краткое описание систем представлено в Таблице 1.5.Таблица 1.5. Описание некоторых из существующих естественно-языковыхпоисковых систем.СистемаBrainboostОписаниеBrainboost является системой метапоиска, разработанной дляпредоставления ответов на вопросы, сформированные на ЕЯ1. Внастоящее время поддерживается только аглийский язык. ЯдроBrainboost использует техники машинного обучения и анализаестественного языка для ответов на вопросы пользователей.Brainboost,в отличие от традиционных ПС, генерируетмножество различных запросов, которые затем передает втрадиционныесистемыпоискаинформации.Текстыдокументов, полученных от ПС, анализируются на наличие вних ответов на вопрос, введенный пользователем.
Затем ответы,обнаруженные в данных документах, ранжируются при помощиалгоритма AnswerRank и возвращаются пользователю.HakiaHakia2–использующая12этопоисковаятехнологиюсистемаQDEXдля(QueryИнтернета,DetectionДомашняя страница системы Brainboost. Режим доступа: http://www.brainboost.com/.Домашняя страница системы Hakia. Режим доступа: http://www.hakia.com/.and36Extraction), являющуюся альтернативной новой архитектуройдля индексации.
При индексации электронных документовиспользуется алгоритм SemanticRank, который сочетает в себерешения из таких дисциплин, как онтологическая семантика,нечеткая логика, компьютерная лингвистика и математика.Lexxe3 – поисковая система для Интернета, котораяLexxeиспользует обработку естественно-языковых текстов запросов.Поисковыезапросымогутбытьпредставленыкаквопросительными предложениями, например, «Сколько летWikipedia?», так и ключевыми словами и фразами.Lexxe является достаточно новой поисковой системой, чтотребует значительных улучшений в области обработки ЕЯтекстов, потому что на многие вопросы система возвращаетабсолютно нерелевантные ответы.Powerset4Powersetявляетсякомпанией,разрабатывающейестественно-языковую поисковую систему для Интернета,которая сможет находить ответы на вопросы, задаваемыепользователем.
Например, когда в традиционную поисковуюсистему подается запрос «В каком из штатов США самыйвысокий подоходный налог?», то система игнорирует еговопросительную форму и осуществляет поиск по ключевымсловам {«штат», «доход», «налог»}.1.3.2Обзоротечественныхестественно-языковыхпоисковыхсистемИз отечественных систем естественно-языкового и семантического поисканаиболее интересными представляются AskNet, Exactus и RCO (Russian ContextOptimizer).34Домашняя страница системы Lexxe. Режим доступа: http://www.lexxe.com/.Домашняя страница компании Powerset. Режим доступа: http://www.powerset.com/.37Таблица 1.6. Описание отечественных естественно-языковых поисковыхсистем.Система ОписаниеAskNetСемантическийобъектованализ(учитываемыхзаключаетсявклассификациииерархическихсемантическихкатегорий), а также выявлении отношений между ними.Используютсяпредопределенныеморфологическомпредложений,понятийсловаре,выявление(семантическихнесколькимисловами).семантическиесинтаксическийтипыванализкомбинаторныхсемантическихобъектов,представленныхПроводитсясопоставлениесемантически эквивалентных, но синтаксически различныхконструкций (активный, пассивный залог).
Для выявлениясемантических объектов используются регулярные выражения,синтаксическиеисемантическиеправилапродукции,порождающие грамматики (виртуальные словари) чисел и т.п.[10]RCOДля решения задач естественно-языкового поиска предлагаетсяподход, основанный на преобразовании входных запросов с ихпоследующей передачей в целевую систему поиска поключевым словам [2, 16]. Для расширения поисковых запросовпредназначен модуль RCO Query Parser , который разбираетконтекстный поисковый запрос на русском языке и, с учетомграмматики и семантики, строит оптимальное поисковоевыражение для обработки в поисковой машине, котораяиндексирует текст, ничего не зная о языке, за исключениемтого, что слова разделяются пробелами.Предлагаемый в [2] способ поиска основан на использованиисинтаксических связей между словами поискового запроса длявыбора оптимального выражения на языке запросов целевой38поисковой машины.
Акцент данного метода ставится наиспользование различных операторов между словами запроса,чтопозволяетболеегибкоманипулироватьзапросом,передаваемым целевой поисковой машине. При отсутствиирезультатовпоискапопервоначальномувариантуоптимизированного запроса формируется последовательностьменеестрогихсохранениемпоисковыхзапросовпервоначальногосмысла,смаксимальнымчтообеспечиваетпоследовательное повышение полноты поиска с минимальнойпотерей точности [2, 16].
Основная идея метода заключается виспользовании синтаксических связей между словами запросадляпримененияразличныхпоисковыхотражающих силу этих связей, аограничений,также в последующемпошаговом ослаблении ограничений (вплоть до TF ⋅ IDF ) длядостижения желаемой полноты [16].ExactusСистема базируется на реляционно-ситуационном методепоиска и анализа текстов, предложенном Г.С. Осиповым[15,14]. Данный метод опирается на коммуникативную грамматикурусского языка[4, 3] и на теорию неоднородных семантическихсетей[12, 1].Основным понятием в коммуникативной грамматике являетсяпонятие синтаксемы как минимальной единицы высказывания.Синтаксемойназываетсясемантическаяединицаминимальнаяязыка,несущаясинтактикообобщенныйкатегориальный смысл и характеризующаяся взаимодействиемморфологических,семантическихифункциональныхпризнаков[15].
Для анализа предложений и словосочетанийодних синтаксем недостаточно, важна их сочетаемость, котораяопределяется семейством бинарных отношений на множествесинтаксем [13]. Данные отношения отражают их семантические39связи, т. е. являются ситуативными отношениями понятий впонятийной системе предметной области. Для определениясинтаксем и отношений между ними в рассматриваемом методеописанаследующаяпоследовательностьшагов:(1)морфологический анализ (распознаются слова, выделяютсялексемы),(2)синтаксическийанализ(установлениезависимостей между лексемами и выделение синтаксем), (3)реляционно-ситуационныйанализзначений(выявлениесинтаксем и семантических связей между ними).Результатом работы данного метода являются структуры,описывающие семантическую информацию, передаваемуютекстом,ввидереляционно-ситуационнойформальнойточкизренияданныемодели.структурыСявляютсянеоднородными семантическими сетями [12, 1] и называютсясемантическими образами текстов запросов и документов.При ранжировании документов больший ранг получает тотдокумент, в котором слова запроса находятся в тех жесемантических отношениях, в которых они входят в данныйзапрос.
Однако для быстрого поиска необходимо созданиесемантического индекса, содержащего список вхождений словв документы, статистический вес значимости слова в документе( TF ⋅ IDF ) и значение соответствующей синтаксемы.1.4. Постановка задачи диссертационного исследованияАнализ научной литературы показал, что существует большое разнообразиеметодов и алгоритмов поиска информации в различных источниках. РазвитиеСемантического Веба и разнообразие подходов, применяемых для поиска иизвлечения информации, а также значительное количество естественноязыковыхисемантическихпоисковыхсистемпоказывает,чтотема40семантического поиска информации по естественно-языковым запросам (ЕЯзапросам) является весьма актуальной.Однако, несмотря на большое разнообразие методов и подходов ксемантическому поиску,у существующих поисковых систем имеется ряднедостатков.
К ним можно отнести отсутствие семантического описанияэлектронных документов (в большинстве случаев), высокую трудоемкостьалгоритмизации автоматизированного создания такого описания, большойразрыв между технологиями семантического веба и гипертекстового поиска(развиваются параллельно и независимо друг от друга), недостаточныеинтеллектуальные возможности анализаторов ЕЯ-запросов.Всвязисэтимпредлагаетсяразработатьметодпроектированиясемантически-ориентированной системы мета-поиска с естественно-языковым(русскоязычным) интерфейсом, позволяющим преобразовать поступивший навход поисковый запрос в такую форму, которая даст наиболее релевантныйрезультат в системе поиска по ключевым словам.Для достижения этой цели необходимо решить ряд задач:1.