Диссертация (1137159), страница 3
Текст из файла (страница 3)
Проводится обзор и классификациясистем,реализующихпринципысемантическогопоиска.Значительноевнимание уделяется описанию принципов разработки естественно-языковыхпоисковых систем и анализу характеристик основных представителей системданного класса. Формулируется задача диссертационного исследования.Во второй главе рассматриваются три класса важных для приложений, нонедостаточно исследованных в научных публикациях естественно-языковыхзапросов.
Предлагается новый подход к семантически-ориентированномупоискуинформациивИнтернете,основанныйнасемантическомпреобразовании входного запроса в форму, позволяющую традиционнойпоисковой системе найти более релевантные (семантически) документы. Длякаждогоизвыделенныхклассовзапросовпредлагаютсяпринципы12семантического преобразования.Анализируется структура запросов аспектно-ориентированного типа иразрабатывается математическая модель проблемно-ориентированной системыпервичных единиц концептуального уровня с целью создания основы дляразработки алгоритмов семантического преобразования запросов данного типа.Предлагается новый метод формального описания структуры входныхтекстов анализатора аспектно-ориентированных запросов рассматриваемыхвидов на основе аппарата контекстно-свободных грамматик.Разрабатываютсяпланалгоритмасемантическогопреобразованияаспектно-ориентированных запросов и вспомогательный структурированныйалгоритм определения типа и объектов интереса запросов данного вида.В третьей главе анализируются запросы достижения целей, строитсяматематическаямодельнеобходимогодлякомпонентабазысемантическогознанийпоисковойпреобразованиясистемы,вопросоводостижении/недостижении цели.
Для этого определен класс формальныхобъектов, названных концептуальными базами целей (к.б.ц.). В отличие отпонятия концептуального базиса, введенного в теории К-представленийВ.А.Фомичева,концептуальныебазыцелейвключаютформальныепредставления целей интеллектуальных систем (в том числе организаций),являющиеся выражениями СК-языков (стандартных концептуальных языков).Предлагаетсяматематическоеописаниемногообразияшаблоновсемантической трансформации, порожденных рассматриваемой концептуальной базой целей и множеством символов, интерпретируемых как значенияморфологических признаков словоформ. В доступной научной литературеотсутствует прототип понятия “шаблон семантической трансформации”.Разрабатывается метод преобразования вопросов достижения целей вмножество производных запросов на основе концептуальной базы целей инабора шаблонов семантической трансформации.
Преимуществом методаявляется компактность представления данных, позволяющих построитьсемантическое расширение запроса о достижении/недостижении цели.13Предлагаются метод и алгоритм построения семантического расширениявопросовобизмененияхкомпонентабазымножеств.знанийСтроитсяпоисковойматематическаясистемы,модельнеобходимогодлясемантического преобразования вопросов об изменениях множеств.
Для этогоопределен класс формальных объектов, названных базами знаний обизменениях множеств. В отличие от понятия концептуального базиса,введенного в теории К-представлений В.А.Фомичева, базы знаний обизменениях множеств включают формальные представления составныхэлементов множеств и индикаторов изменений состава множеств.Вчетвертойрассматриваетсяглавелогическаяархитектураразрабатываемого программного комплекса и формулируются основныетребованиякпрограммнойлогическойархитектурыархитектурарешения,иреализации.Натребованийсостоящегоизоснованииразработаннойпроектируетсякомпонентнаятрехосновныхподсистем:лингвистической базы знаний, аспектно-ориентированной базы знаний иподсистемы анализа и расширения запросов – AOS Engine.Далеевглаверазрабатываетсяитоговыйалгоритмпостроениярасширенного множества запросов для любого из рассмотренных типов иподтипов, основанный на предложенном методе.Разрабатываются требования к компонентам и подсистемам программногокомплекса, на этой основе выбираются платформа реализации и библиотеки,удовлетворяющие сформулированным требованиям.Проводится анализ работоспособности разработанных алгоритмов и ихтестирование.
Также анализируются результаты работы поисковой системы,реализующей предложенный метод преобразования, поиска и ранжирования.14Глава 1. Основные подходы к поиску информации в электронныхдокументахВ данной главе анализируется современное состояние исследований поразработке систем синтаксического и семантического поиска информации воВсемирной Паутине (Вебе) и корпоративных внутренних сетях. Детальнорассматриваютсяпринципыпоискапоключевымсловамилогика,применяемая в системах такого класса, а также наиболее распространенныеметоды ранжирования результатов поиска. Проводится обзор и классификациясистем,реализующихпринципысемантическогопоиска.Значительноевнимание уделяется описанию принципов разработки естественно-языковыхпоисковых систем и анализу характеристик основных представителей системданного класса.
Рассматриваются отечественные и зарубежные разработки вобласти семантического поиска, методы и модели, применяемые в данныхсистемах. Формулируется задача диссертационного исследования.1.1. Традиционные поисковые системыВ повседневной речи под термином ”поисковая система” (ПС) понимаетсяпрограммноеобеспечение,состоящееизбазыданных,содержащейэлектронные документы, которая снабжена пользовательским интерфейсом,позволяющим пользователю получить упорядоченное подмножество этихдокументов в качестве ответа на его поисковый запрос. Основная задача ПСзаключается в выборе наилучшего возможного подмножества в ответ наконкретный запрос, т.е. множества документов, наиболее соответствующихинформационнойпотребностипользователя.Традиционноданноеподмножество документов отсортировано в порядке убывания релевантности.Самыми распространенными примерами поисковых систем, встречающихсяповсюду, являются поисковые системы для Веба (такие как Google и Yahoo,например), которые используются для обнаружения текстовой информации(например, документов в формате HTML и PDF), хранящейся на веб-серверах,15расположенных по всему миру.
Схожие технологии используются и при поискеинформации в корпоративных внутренних сетях.1.1.1 Формальные компоненты поисковой системыБольшинство поисковых систем состоит из двух основных компонентов,которымиявляютсяПользователюиндексированиякомпонентдоступениндексированиятолькоиспользуетсядляпоисковыйсозданияикомпоненткомпонент.внутреннегопоиска.Компонентэффективногопредставления данных, в которых будет производиться поиск необходимойинформации, а поисковый компонент отвечает за получение результатов извнутренней базы данных в ответ на поисковый запрос пользователя.Формально компонент индексации может быть представлен функциейI : U → R , где U - это множество, которое называется универсумом и содержитданные, среди которых будет вестись поиск.
Для поисковой системы Интернета– это страницы, которые мы загружаем из сети, для графической поисковойсистемы им будет являться набор изображений, а для академической поисковойсистемы универсум будет представлен, например, собранием работ, статей икниг. Множество R является внутренним представлением универсума U,называется репозиторием. Репозиторий имеет вид R = {σ d | 1 ≤ d ≤ n} . Каждое σ dявляется документом, где d - соответствующий уникальный идентификатордокумента, называющийся DOCID. Когда речь идет о документеd,используется преобразование d a σ d . Каждое представление σ d зависит, впервую очередь, от поисковой системы.Следует отметить, что функция I обычно применяется к подмножеству U 'множества U, и поэтому поиск происходит только в части всего репозиторияR ' = I(U ' ) . Объясняется это тем, что множество U слишком велико, чтобы бытьпроанализировано полностью (см.
ниже).Проиллюстрируем концепцию индексирования на примере поисковойсистемы для Веба. Местонахождение веб-страниц обычно определяется поунифицированномууказателюресурса(URL)[75].ПримерURL:16«http://www.hse.ru». При индексировании система имеет дело с набором URLразличныхдокументов(которыевВебеназываютсястраницами)ипоследовательно присваивает всем документам идентификаторы (DOCID).Затем данные страницы выгружаются из Веба в репозиторий, т.е.
хранилищевнутренних представлений каждой из страниц. Количество выгружаемыхстраниц обычно очень велико (в современных поисковых системах это порядка1010документов), но, тем не менее, оно значительно меньше реального числастраниц в U, т.е. количества страниц, находящихся в Интернете. Такимобразом, одной из основных задач построения поисковых систем для Вебаявляется определение адекватного подмножестваU'.Рассмотрим компонент поиска, который обращается к документам,расположенным в репозитории, для того, чтобы осуществить выборку,соответствующую поисковому запросу. Формально, поисковый компонентможет быть представлен как функция S : ω a τ , где ω - поисковый запрос,конечная строка, введенная пользователем (принадлежащая используемомуалфавиту).
Поисковый запрос ω принято считать состоящим из термов,являющихся атомарными словами, поиск которых ведется, и операторов,которые описывают, какинтерпретировать термы. Например, в поисковомзапросе «цепи Маркова», запрос состоит из термов ω1 = цепи и ω2 = Маркова .Оператором в данном случае будет являться логическое И, что описываетситуацию, когда нам необходимы документы, содержащие оба этих терма.τ - это результат, являющийся упорядоченным набором (или же вектором)отдельных документов: τ = (σ τ1 ,σ τ2 ,...,σ τ r ) ~ (τ1 , τ 2 ,..., τ r ) , где используется свойствоизоморфности документов, такое, что τ i : s фактически является идентификатором документа(DOCID).
Количество возвращаемых документовr = |τ |называется выборкой для данного поискового запроса. Очевидно, что 0 ≤ r ≤ n .Результат τ - это информация, представляемая пользователю. Элементы τ это все документы, которые поисковая система сочла достаточно подходящимидлявключенияврезультирующийнабор.Болеетого,элементыв17результирующем множестве расположены в таком порядке, чтоτiсчитаетсяболее значимым для пользователя, чем τ i+1 . При обычном веб-поиске 10документов,представленныхсоответствоватьτ1-τ10 .напервойстраницерезультатов,будутТочность определяется долей возвращенныхдокументов, которые фактически релевантны, т.е.Точность =|{Релевантные _ документы} ∩ τ ||τ |Здесь понятие релевантности является абсолютно произвольным иполностью зависит от поисковой системы (или, возможно, от ее пользователей).Рассмотрим проблему получения τ на основании поискового запроса ω ирепозитория R .