Диссертация (1137159), страница 2
Текст из файла (страница 2)
224Приложение 7. Экранные формы программных компонентов .................... 235Приложение 8. Данные для баз знаний........................................................... 239Приложение 9. Акты внедрения ...................................................................... 2496ВВЕДЕНИЕАктуальность темы исследования. В настоящее время параллельно сростом объемов информации в Интернете происходит разработка новых исовершенствование существующих подходов к ее поиску. Все большуюактуальностьприобретают средства семантического поиска, под которымипонимаютсясистемы,принимающиенавходнекоторыйзапрос,обрабатывающие его с использованием рассуждений над специфичной базойзнаний и возвращающие совместимые результаты.
Входным запросом можетявляться, например, вопрос на естественном языке (ЕЯ), представление вопросапри помощи триплетов, графическое представление, набор ключевых слов,отдельные фразы и т.д. В роли базы знаний могут выступать онтологии,аннотированные массивы текста, текстовые документы, Веб, XML- документы,RDF документы, HTML документы и т.д. В нашей стране значительный вклад вразвитие семантического поиска внесли Э.Э.
Гасанов, А.Е. Ермаков, А.Н.Королев, И.П. Кузнецов, Д.Г. Лахути, Н.Н. Леонтьева, М.Г. Мальковский, А.Г.Мацкевич, А.С. Нариньяни, И. С. Некрестьянов, Г.С. Осипов, И.В. Сегалович,А.В. Сокирко, Н.В. Перцов, Н.Н. Перцова, Э.В. Попов, В.Ш. Рубашкин, И.А.Тихомиров, В.О. Толчеев, В.А. Тузов, В.А. Фомичёв, Н.П. Харин, В.Ф.Хорошевский и другие учёные.Однако, несмотря на большое разнообразие методов и подходов ксемантическому поиску,у существующих поисковых систем имеется ряднедостатков.
К ним можно отнести отсутствие семантического описанияэлектронных документов (в большинстве случаев), высокую трудоемкостьалгоритмизации автоматизированного создания данного описания, большойразрыв между технологиями семантического веба и гипертекстового поиска(развиваются параллельно и независимо друг от друга), недостаточныеинтеллектуальные возможности анализаторов естественно-языковых запросоввопросно-ответных систем.Объект исследования: методы семантической обработки поисковымисистемами естественно-языковых запросов.7Предмет исследования: методы применения формальных средств длясемантического анализа и преобразования поисковых запросов на естественномязыке, проектирования лингвистической базы знаний, а также баз знаний дляподдержки преобразования запросов и поиска.Цельисследования:разработатьтакойметодсемантическогопреобразования важных с практической точки зрения естественно-языковыхпоисковых запросов в форму (множество производных запросов), позволяющую традиционным системам поиска обнаружить наиболее релевантныерезультаты, который предусматривает применение формальных средств дляописания (а) системы концептуальных единиц первичного уровня, (б)логической структуры базы знаний для поддержки преобразования запросов ипоиска.Задачи исследования:1.Провести анализ состояния исследований по семантической обработкепоисковыми системами вопросов на естественном языке (ЕЯ) с цельювыявления классов вопросов, недостаточно проработанных в научнойлитературе и имеющих большую практическую значимость для системестественно-языкового поиска.2.
По результатам проведенного анализа разработать метод семантическогопреобразования, который бы позволил трансформировать поданный на входестественно-языковой запрос в форму (множество производных запросов),позволяющую повысить релевантность документов, выдаваемых системамипоиска по ключевым словам.3.Выбратьнаиболеесоответствующуюпредложенномуметодуметодологическую основу исследования для построения математическихмоделей компонентов базы знаний, необходимых для семантическогопреобразования естественно-языковых запросов.4. Построить математические модели компонентов базы знаний, необходимыхдля семантического преобразования поисковых запросов для выбранных типоввопросов.
Построить итоговую математическую модель для поддержки8семантически-ориентированного преобразования и поиска.5. На основе предложенных моделей разработать алгоритмы анализа ипреобразования поисковых запросов в форму (множество производныхзапросов), позволяющую повысить релевантность документов, выдаваемыхсистемами поиска по ключевым словам. Разработать алгоритм ранжированиярезультатов по степени релевантности поисковому запросу.6 . Разработать программный комплекс, реализующий предложенный методсемантического преобразования поисковых запросов.7.Провеститестированиеразработанногопрограммногокомплексаипроанализировать полученные результаты.Теоретико-методологическую основу исследования составляют теорияалгоритмов, теория графов, теория контекстно-свободных грамматик, теорияК-представлений,методытеоретическогопрограммированияиВебпрограммирования.Достоверность и обоснованность научных положений подтверждаетсякорректным применением математического аппарата теории К-представлений,теории контекстно-свободных грамматик, теории алгоритмов и результатамитестирования разработанной компьютерной программы.В ходе исследования была решена научная задача создания такогометода семантического преобразования естественно-языковых запросов врасширенную форму, позволяющую традиционным поисковым системамполучать более релевантные результаты, который предусматривает применениеформальных средств для описания (а) системы концептуальных единицпервичного уровня, (б) логической структуры базы знаний для поддержкипреобразованиязапросовипоиска,(в)шаблоновсемантическихтрансформаций, необходимых для преобразования поисковых запросов.Теоретическаязначимостьисследования.Впервыепредложенбазирующийся на математической модели подсистемы базы знанийметодсемантического преобразования ЕЯ-запросов поисковых систем (ПС) в форму(множество производных запросов), позволяющую повысить релевантность9результатов работы систем поиска по ключевым словам.Практическая значимость исследования состоит в том, что предложенновый подход к анализу и преобразованию ЕЯ-запросов ПС в такую форму(множество производных запросов), которая позволяет повысить релевантностьдокументов, получаемых от традиционных ПС.
Данный подход базируется напостроении математических моделей семантических объектов, которыеиспользуются алгоритмами построения множества преобразованных запросов.Разработанные алгоритмы позволяют определять типы и подтипы ЕЯ-запросовпоисковой системы, а также выделять объекты интереса запросов. На основеразработанной модели базы знаний для поддержки преобразования запросов ипоиска в зависимости от типа запроса и выделенных объектов интересапроисходит построение множества семантически преобразованных запросов,которые подаются на вход традиционной ПС. Разработанный алгоритмранжированиярезультатовпоисковойвыдачипозволяетповыситьрелевантность результатов по сравнению с системами поиска по ключевымсловам.
Математический подход, базирующейся на теории К-представлений,являетсяпредметнонезависимымиможетбытьиспользованприпроектировании базы знаний для поддержки преобразования запросов и поискав разных предметных областях. Важным аспектом практической ценностиразработанного комплекса является возможность его интеграции с любымколичеством поисковых систем, а также возможность управления информациейв базе знаний с целью повышения соответствия результатов поискаинформационной потребности пользовате-лей, что не требует внесенияизменений в разработанные алгоритмы.Полученные в диссертации результаты использованы в научных ипроектныхисследованияхкомпании«Вокском–ГолосовыеТелекоммуникации» (Москва), а также в лекционных и лабораторных занятияхпо дисциплине «Проектирование лингвистических процессоров» на кафедре«Информационные технологии» «МАТИ» – Российского государственноготехнологического университета им.
К.Э. Циолковского.10Основные положения, выносимые на защиту:1. Разработан комплекс математических моделей семантических исемантико-синтаксическихобъектов,предназначенныхдлярасширенияпользовательских поисковых запросов:1.1.Математическаямодельпроблемно-ориентированнойсистемыпервичных единиц концептуального уровня, используемой для построениямножества преобразованных аспектно-ориентированных запросов.1.2. Математическая модель концептуальной базы целей, используемая дляпреобразования запросов о достижении целей.1.3.
Математическая модель базы знаний об изменениях множеств,используемой для поддержки преобразования запросов об измененияхмножеств.1.4. Итоговая математическая модель базы знаний для поддержкисемантического преобразования запросов и поиска.2. Разработан комплекс из двух алгоритмов, обеспечивающих анализпоисковых запросов на соответствие рассматриваемым типам и подтипампоисковых запросов, а также позволяющий определить значимые объектыинтереса поисковых запросов.3. Разработаны метод и алгоритм построения множества преобразованныхзапросов.4. Разработан программный комплекс, реализующий предлагаемый методсемантическогоразработанныепреобразованияалгоритмы.поисковыхРазработанныйзапросовипрограммныйиспользующийкомплексбылуспешно развернут по адресу http://www.aosengine.ru.5.
Разработана КС-грамматика в форме Бэкуса-Наура для описаниявходного языка поисковых запросов пользователей.Апробация и внедрение результатов исследования. Основныерезультаты работы представлялись и получили одобрение на научнопрактической конференции студентов и аспирантов «Информационныетехнологии в экономике, бизнесе, управлении» (ГУ-ВШЭ, 2010), на IX11Международной научно-технической конференции «Новые информационныетехнологии и системы» (НИТиС-2010), на молодежной научной конференции«Гагаринские чтения» в МАТИ (2011) и на научном семинаре «Математическиемодели информационных технологий» Отделения прикладной математики иинформатики факультета бизнес-информатики НИУ ВШЭ в 2012 году.
По темедиссертационной работы опубликовано 7 научных работ, включая две статьи визданиях из списка изданий, рекомендованных ВАК РФ. Разработанный вдиссертациипрограммныйкомплексбылразвернутпоадресуhttp://www.aosengine.ru/.Структура диссертации: основной текст диссертации изложен на 156страницах, состоит из введения, четырёх глав, заключения, списка литературыиз 100 наименований и девяти приложений.Во введении обоснована актуальность темы диссертационной работы,сформулированы цели и задачи работы, определены ее теоретическая ипрактическая значимость, приведены сведения об апробации и внедренииработы, о структуре диссертации и о публикациях по теме диссертации.В первой главе рассматриваются системы поиска по ключевым словам логика, применяемая в системах такого класса, и наиболее распространенныеметоды ранжирования результатов поиска.