Главная » Просмотр файлов » Автореферат

Автореферат (1137158), страница 4

Файл №1137158 Автореферат (Математическое моделирование и программная реализация семантического преобразования поисковых запросов) 4 страницаАвтореферат (1137158) страница 42019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Пусть sem-pattern – цепочка <поглощение-орг * (Агент, #Объектинтереса)(Роль2, нек компания), 1>. Тогда набор (sem-pattern, #A#, #Pred#,#B#, глаг * прош-время) является одним из возможных шаблоновсемантической трансформации.Разработан метод преобразования вопросов достижения целей вмножество производных запросов на основе концептуальной базы целей инабора шаблонов семантической трансформации.Преобразование происходит при помощи правил трансформации,уникальных для каждого из фактов.

В правиле трансформации указываютсяпорядок слов в результирующем словосочетании, а также их формы. Наосновании хранимых в базе фактов и соответствующих правилтрансформациигенерируютсясловосочетания,которыепозволяттрадиционной системе поиска по ключевым словам найти документы,содержащие в себе упоминания данных фактов.Метод порождения результирующих индикаторов.1.По входному запросу находится информационная единица Studied-object,обозначающая объект интереса запроса.2. По шаблону вида (1) строится цепочка X Y Z.3.

В цепочке X Y Z символ #A# заменяется на произвольную лексическуюединицу, которой соответствует информационная единица Studied-object.144. Пусть sem-pattern – цепочка вида <event-concept * (Агент, d1)(Роль2, d2),estimation>. Тогда в цепочке, полученной на Шаге 3, символ #Pred#заменяется на произвольную лексическую единицу pred-word-form,которой соответствует информационная единица event-concept, причемсловоформаpred-word-formдолжнаобладатьзначениямиморфологических признаков, задаваемыми цепочкой prop-chain.5. В цепочке, полученной на Шаге 4, символ #B# заменяется на произвольнуюлексическую единицу, соответствующую той из семантических единицd1 и d2, которая отлична от символа #Объект-интереса в исходномшаблоне.Пример.

Пусть Studied-object = firm-Oracle, sem-pattern – цепочка<поглощение-орг * (Агент, #Объект-интереса)(Роль2, нек фирма1), 1>. Тогдапо шаблону семантической трансформации вида (sem-pattern, #A#, #Pred#,#B#, глаг * ПрошВр) в соответствии с данным алгоритмом может бытьпостроен результирующий индикатор «Oracle поглотил компания».Преимуществом этого метода является компактность представленияданных, позволяющих построить семантическое расширение запроса одостижении целей.Проводится анализ и разработка метода и алгоритма построениясемантического расширения вопросов об изменениях множеств. Строитсяматематическая модель компонента базы знаний поисковой системы,необходимого для семантического преобразования вопросов об измененияхмножеств.

Для этого определен класс формальных объектов, названныхбазами знаний об изменениях множеств (б.з.и.м.).Пусть Extbs – произвольный расширенный концептуальный базис (р.к.б.)вида (S, Cobs, Ql), где S — произвольная аспектно-ориентированная сортоваясистема, Cobs — размеченная концептуально-объектная система вида (X, V, tp,F, Qf, Chr, Fgn) согласованная с S, и Ql — система кванторов и логическихсвязок для сортовой системы S и концептуально-объектной системы Ct=(X,V,tp,F); концептуальный базис B является семантическим ядром Extbs, тогдабазой знаний об изменениях множеств, согласованной с р.к.б. Extbs,называется произвольная упорядоченная пятерка SetsKb вида (C, Comp,fdecomp, Ind, h), где C и Comp – конечные подмножества множества X(B), идля любого элемента d множеств C и Comp тип tp(d) начинается с символа "↑"(т.е.

элементы множеств C и Comp интерпретируются как понятия); fdecomp –функция, ставящая в соответствие произвольному элементу из C некотороеподмножество множества Comp (данная функция интерпретируется какдекомпозирующая); Ind – конечное множество произвольных символов,которые интерпретируются как индикаторы изменений (действий,совершаемых с элементами множества Comp); h – функция, ставящая всоответствие элементу из Comp подмножество индикаторов из Ind. Даннаяфункцияю называется детерминантом индикаторов изменений для элементов15целевого множества Comp.Пример. Если C и Comp включают соответственно элементы фирма1 иотдел, и отдел – элемент множества fdecomp(фирма1), то h(отдел) = {создан,объединен, расформирован, реорганизован, разделен}.Разработан алгоритм определения объектов интереса запроса об измененияхв составе множеств, позволяющий не только определять основные объектыинтереса (множества, изменения в которых интересуют пользователя), но ивременной интервал, относительно которого запрашивается информация, икоторый может быть задан многими способами (примерами различногоуказания временного интервала служат «2010», «2011 год», «пару лет назад»,«5 лет назад», «в прошлом году»).Рассмотрим разработанный в параграфе 3.2.3 метод построения множествапреобразованных запросов об изменениях в составе множеств.

Пусть заданпоисковый запрос ω = "Какие изменения были в составе компании Газпром?".После того, как определено целевое множество поискового запроса ω , атакже его название («Газпром»), можно приступать к генерации множествасемантически преобразованных запросов, порождаемых запросом ω .Результирующие запросы формируются на основании заполненной базызнаний об изменениях множеств SetsKb вида (C, Comp, fdecomp, Ind, h).Сначала происходит поиск по базе знаний элемента ω1 [0] =" компания" с цельюизвлечения информации о составляющих элементах компании и индикаторовизменений.

Значение функции fdecomp дляω1[0] =" компания" будетследующим: fdecomp(ω1 [0]) = {департамент, отдел, служба}, а функцииh( fdecomp(ω1 [0]) i ) = {создан, объединен, расформирован, реорганизован,разделен}, где fdecomp( w1 [0]) i один из компонентов целевого множества ω1 ,полученный при помощи функции fdecomp.После того, как информация извлечена из базы знаний, необходимосгенерировать цепочки вида X+ fdecomp( w1 [0]) i + h( fdecomp(ω1 [0]) i ) j + D, гдеX= ω1 [1] , т.е.

непосредственно название компании, i – это индекс элемента изfdecomp(ω1 [0]) , а j – индекс индикатора из множества индикаторовполученного при помощи функции h. D – опциональный параметр,указывающий на временной интервал, в рамках которого необходимоанализировать изменения в составе объекта X.

Для генерации полногомножества результирующих запросов ExtSet необходимо сгенерировать всевозможные сочетания элементов из множествfdecomp(ω1 [0])иh( fdecomp(ω1 [0]) i ) . Сгенерированный набор словосочетаний затем передаетсяна вход традиционной поисковой системы.В отличие от понятия концептуального базиса, введенного в теории Кпредставлений, базы знаний об изменениях множеств включают формальные16представления составных элементов множеств и индикаторов изменений длямножеств (в том числе относящихся к организациям).В параграфе 3.10 строится итоговая математическая модель базы знанийдля поддержки семантического преобразования запросов и поиска,объединяющая разработанные модели в единое целое.Пусть Extbs – произвольный расширенный концептуальный базис.

Тогдабазой знаний для поддержки преобразования запросов и поиска будетназываться произвольная упорядоченная тройка SearchKb вида (Extbs, Gbase,SetsKb),где Extbs – расширенный концептуальный базис (р.к.б.), Gbase –концептуальная база целей для концептуального базиса B=Sem-Core(Extbs) иSetsKb – база знаний об изменениях множеств для концептуального базисаB=Sem-Core(Extbs).В четвертой главе на основе предложенного метода преобразованияпоисковых запросов была разработана логическая архитектура программногокомплекса и сформулированы основные функциональные требования ккомпонентам решения.

На основе разработанной логической архитектуры итребований к компонентам была спроектирована и реализована архитектурарешения, состоящего из трех основных подсистем: лингвистической базызнаний (ЛБЗ), аспектно-ориентированной базы знаний и подсистемы анализаи расширения запросов – AOS Engine.ЛБЗ предназначена для хранения и предоставления доступа кинформации о грамматических свойствах слов, для определениясемантического контекста того или иного слова, для построения взаимосвязеймежду словами, а также для осуществления стемминга слов. Доступ ксистеме реализован посредством интерфейса веб-сервиса, что позволяет ееиспользовать независимо от всего программного комплекса. Данноеархитектурное решение обусловлено тем, что лингвистические данныедолжны быть максимально доступны не только для разработчика однойконкретной системы, но и для всего сообщества разработки приложений,связанных с поиском информации и анализом ЕЯ-текстов.Основное назначение аспектно-ориентированной базы знаний (АОБЗ)заключается в хранении и предоставлении доступа к информации об аспектахпонятий.

Однако помимо этого база предназначена для работы инженеров познаниям и предоставляет возможность ввода данных и сбора статистики. ВАОБЗ хранятся такие объекты, как ЕЯ-запрос, соответствующие ему тип иобъекты интереса, аспекты заданного понятия и примеры текстов,содержащие ответы на первоначальный запрос.

Таким образом, приправильном наполнении АОБЗ можно использовать для улучшенияалгоритмов анализа поисковых запросов путем машинного обучения. Системапредоставляет открытый доступ с возможностью ввода данных черезграфический интерфейс, а также предоставляет веб-интерфейс для доступа кданным.

По сути, данная подсистема является автономным веб-приложением,17которое может быть использовано в любом контексте. Данное архитектурноерешение так же, как и в случае с ЛБЗ, обусловлено тем, что доступ клингвистическим данным должен быть максимально открыт для сообщества.Рисунок 1. Архитектура программного комплекса AOS EngineПодсистема AOS Engine является центральной подсистемойпрограммного комплекса, в которой происходит анализ и расширениепоисковых запросов, передача их в систему поиска по ключевым словам иранжирование полученных результатов.В 4 главе был разработан и реализован итоговый алгоритм построениярасширенного множества запросов для любого из рассмотренных типов иподтипов, основанный на предложенном методе.Проведено тестирование алгоритмов определения типа и объектовинтереса поисковых запросов методом белого ящика в автоматическомрежиме при помощи библиотеки тестирования JUnit.

Было сформированомножество из более чем 300 уникальных поисковых запросов различных18типов, элементы которого последовательно подавались на вход алгоритмам,затем средствами фреймворка JUnit производился анализ соответствиярезультатов работы алгоритма ожидаемым.Результаты тестирования алгоритмов определения типа и объектовинтереса поисковых запросов показали их высокую устойчивость кизмененному порядку слов в запросах, а также возможность манипулироватьрезультатами работы алгоритмов без внесения изменений в их логику.

Характеристики

Список файлов диссертации

Математическое моделирование и программная реализация семантического преобразования поисковых запросов
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее