Диссертация (1137159), страница 3

Файл №1137159 Диссертация (Математическое моделирование и программная реализация семантического преобразования поисковых запросов) 3 страницаДиссертация (1137159) страница 32019-05-202019-05-20СтудИзба

Математическое моделирование и программная реализация семантического преобразования поисковых запросов

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Проводится обзор и классификациясистем,реализующихпринципысемантическогопоиска.Значительноевнимание уделяется описанию принципов разработки естественно-языковыхпоисковых систем и анализу характеристик основных представителей системданного класса. Формулируется задача диссертационного исследования.Во второй главе рассматриваются три класса важных для приложений, нонедостаточно исследованных в научных публикациях естественно-языковыхзапросов.

Предлагается новый подход к семантически-ориентированномупоискуинформациивИнтернете,основанныйнасемантическомпреобразовании входного запроса в форму, позволяющую традиционнойпоисковой системе найти более релевантные (семантически) документы. Длякаждогоизвыделенныхклассовзапросовпредлагаютсяпринципы12семантического преобразования.Анализируется структура запросов аспектно-ориентированного типа иразрабатывается математическая модель проблемно-ориентированной системыпервичных единиц концептуального уровня с целью создания основы дляразработки алгоритмов семантического преобразования запросов данного типа.Предлагается новый метод формального описания структуры входныхтекстов анализатора аспектно-ориентированных запросов рассматриваемыхвидов на основе аппарата контекстно-свободных грамматик.Разрабатываютсяпланалгоритмасемантическогопреобразованияаспектно-ориентированных запросов и вспомогательный структурированныйалгоритм определения типа и объектов интереса запросов данного вида.В третьей главе анализируются запросы достижения целей, строитсяматематическаямодельнеобходимогодлякомпонентабазысемантическогознанийпоисковойпреобразованиясистемы,вопросоводостижении/недостижении цели.

Для этого определен класс формальныхобъектов, названных концептуальными базами целей (к.б.ц.). В отличие отпонятия концептуального базиса, введенного в теории К-представленийВ.А.Фомичева,концептуальныебазыцелейвключаютформальныепредставления целей интеллектуальных систем (в том числе организаций),являющиеся выражениями СК-языков (стандартных концептуальных языков).Предлагаетсяматематическоеописаниемногообразияшаблоновсемантической трансформации, порожденных рассматриваемой концептуальной базой целей и множеством символов, интерпретируемых как значенияморфологических признаков словоформ. В доступной научной литературеотсутствует прототип понятия “шаблон семантической трансформации”.Разрабатывается метод преобразования вопросов достижения целей вмножество производных запросов на основе концептуальной базы целей инабора шаблонов семантической трансформации.

Преимуществом методаявляется компактность представления данных, позволяющих построитьсемантическое расширение запроса о достижении/недостижении цели.13Предлагаются метод и алгоритм построения семантического расширениявопросовобизмененияхкомпонентабазымножеств.знанийСтроитсяпоисковойматематическаясистемы,модельнеобходимогодлясемантического преобразования вопросов об изменениях множеств.

Для этогоопределен класс формальных объектов, названных базами знаний обизменениях множеств. В отличие от понятия концептуального базиса,введенного в теории К-представлений В.А.Фомичева, базы знаний обизменениях множеств включают формальные представления составныхэлементов множеств и индикаторов изменений состава множеств.Вчетвертойрассматриваетсяглавелогическаяархитектураразрабатываемого программного комплекса и формулируются основныетребованиякпрограммнойлогическойархитектурыархитектурарешения,иреализации.Натребованийсостоящегоизоснованииразработаннойпроектируетсякомпонентнаятрехосновныхподсистем:лингвистической базы знаний, аспектно-ориентированной базы знаний иподсистемы анализа и расширения запросов – AOS Engine.Далеевглаверазрабатываетсяитоговыйалгоритмпостроениярасширенного множества запросов для любого из рассмотренных типов иподтипов, основанный на предложенном методе.Разрабатываются требования к компонентам и подсистемам программногокомплекса, на этой основе выбираются платформа реализации и библиотеки,удовлетворяющие сформулированным требованиям.Проводится анализ работоспособности разработанных алгоритмов и ихтестирование.

Также анализируются результаты работы поисковой системы,реализующей предложенный метод преобразования, поиска и ранжирования.14Глава 1. Основные подходы к поиску информации в электронныхдокументахВ данной главе анализируется современное состояние исследований поразработке систем синтаксического и семантического поиска информации воВсемирной Паутине (Вебе) и корпоративных внутренних сетях. Детальнорассматриваютсяпринципыпоискапоключевымсловамилогика,применяемая в системах такого класса, а также наиболее распространенныеметоды ранжирования результатов поиска. Проводится обзор и классификациясистем,реализующихпринципысемантическогопоиска.Значительноевнимание уделяется описанию принципов разработки естественно-языковыхпоисковых систем и анализу характеристик основных представителей системданного класса.

Рассматриваются отечественные и зарубежные разработки вобласти семантического поиска, методы и модели, применяемые в данныхсистемах. Формулируется задача диссертационного исследования.1.1. Традиционные поисковые системыВ повседневной речи под термином ”поисковая система” (ПС) понимаетсяпрограммноеобеспечение,состоящееизбазыданных,содержащейэлектронные документы, которая снабжена пользовательским интерфейсом,позволяющим пользователю получить упорядоченное подмножество этихдокументов в качестве ответа на его поисковый запрос. Основная задача ПСзаключается в выборе наилучшего возможного подмножества в ответ наконкретный запрос, т.е. множества документов, наиболее соответствующихинформационнойпотребностипользователя.Традиционноданноеподмножество документов отсортировано в порядке убывания релевантности.Самыми распространенными примерами поисковых систем, встречающихсяповсюду, являются поисковые системы для Веба (такие как Google и Yahoo,например), которые используются для обнаружения текстовой информации(например, документов в формате HTML и PDF), хранящейся на веб-серверах,15расположенных по всему миру.

Схожие технологии используются и при поискеинформации в корпоративных внутренних сетях.1.1.1 Формальные компоненты поисковой системыБольшинство поисковых систем состоит из двух основных компонентов,которымиявляютсяПользователюиндексированиякомпонентдоступениндексированиятолькоиспользуетсядляпоисковыйсозданияикомпоненткомпонент.внутреннегопоиска.Компонентэффективногопредставления данных, в которых будет производиться поиск необходимойинформации, а поисковый компонент отвечает за получение результатов извнутренней базы данных в ответ на поисковый запрос пользователя.Формально компонент индексации может быть представлен функциейI : U → R , где U - это множество, которое называется универсумом и содержитданные, среди которых будет вестись поиск.

Для поисковой системы Интернета– это страницы, которые мы загружаем из сети, для графической поисковойсистемы им будет являться набор изображений, а для академической поисковойсистемы универсум будет представлен, например, собранием работ, статей икниг. Множество R является внутренним представлением универсума U,называется репозиторием. Репозиторий имеет вид R = {σ d | 1 ≤ d ≤ n} . Каждое σ dявляется документом, где d - соответствующий уникальный идентификатордокумента, называющийся DOCID. Когда речь идет о документеd,используется преобразование d a σ d . Каждое представление σ d зависит, впервую очередь, от поисковой системы.Следует отметить, что функция I обычно применяется к подмножеству U 'множества U, и поэтому поиск происходит только в части всего репозиторияR ' = I(U ' ) . Объясняется это тем, что множество U слишком велико, чтобы бытьпроанализировано полностью (см.

ниже).Проиллюстрируем концепцию индексирования на примере поисковойсистемы для Веба. Местонахождение веб-страниц обычно определяется поунифицированномууказателюресурса(URL)[75].ПримерURL:16«http://www.hse.ru». При индексировании система имеет дело с набором URLразличныхдокументов(которыевВебеназываютсястраницами)ипоследовательно присваивает всем документам идентификаторы (DOCID).Затем данные страницы выгружаются из Веба в репозиторий, т.е.

хранилищевнутренних представлений каждой из страниц. Количество выгружаемыхстраниц обычно очень велико (в современных поисковых системах это порядка1010документов), но, тем не менее, оно значительно меньше реального числастраниц в U, т.е. количества страниц, находящихся в Интернете. Такимобразом, одной из основных задач построения поисковых систем для Вебаявляется определение адекватного подмножестваU'.Рассмотрим компонент поиска, который обращается к документам,расположенным в репозитории, для того, чтобы осуществить выборку,соответствующую поисковому запросу. Формально, поисковый компонентможет быть представлен как функция S : ω a τ , где ω - поисковый запрос,конечная строка, введенная пользователем (принадлежащая используемомуалфавиту).

Поисковый запрос ω принято считать состоящим из термов,являющихся атомарными словами, поиск которых ведется, и операторов,которые описывают, какинтерпретировать термы. Например, в поисковомзапросе «цепи Маркова», запрос состоит из термов ω1 = цепи и ω2 = Маркова .Оператором в данном случае будет являться логическое И, что описываетситуацию, когда нам необходимы документы, содержащие оба этих терма.τ - это результат, являющийся упорядоченным набором (или же вектором)отдельных документов: τ = (σ τ1 ,σ τ2 ,...,σ τ r ) ~ (τ1 , τ 2 ,..., τ r ) , где используется свойствоизоморфности документов, такое, что τ i : s фактически является идентификатором документа(DOCID).

Количество возвращаемых документовr = |τ |называется выборкой для данного поискового запроса. Очевидно, что 0 ≤ r ≤ n .Результат τ - это информация, представляемая пользователю. Элементы τ это все документы, которые поисковая система сочла достаточно подходящимидлявключенияврезультирующийнабор.Болеетого,элементыв17результирующем множестве расположены в таком порядке, чтоτiсчитаетсяболее значимым для пользователя, чем τ i+1 . При обычном веб-поиске 10документов,представленныхсоответствоватьτ1-τ10 .напервойстраницерезультатов,будутТочность определяется долей возвращенныхдокументов, которые фактически релевантны, т.е.Точность =|{Релевантные _ документы} ∩ τ ||τ |Здесь понятие релевантности является абсолютно произвольным иполностью зависит от поисковой системы (или, возможно, от ее пользователей).Рассмотрим проблему получения τ на основании поискового запроса ω ирепозитория R .

Характеристики

Тип файла

PDF-файл

Размер

30,21 Mb

Материал

Математическое моделирование и программная реализация семантического преобразования поисковых запросов

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

matematicheskoe-modelirovanie-i-programmnaja-realizacija-semanticheskogo-preobrazovanija-poiskovyh-zaprosov.rar

Математическое моделирование и программная реализация семантического преобразования поисковых запросов

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.