Автореферат (Математическое моделирование и программная реализация семантического преобразования поисковых запросов)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Математическое моделирование и программная реализация семантического преобразования поисковых запросов". PDF-файл из архива "Математическое моделирование и программная реализация семантического преобразования поисковых запросов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиКириллов Антон ВладимировичМатематическое моделирование и программная реализациясемантического преобразования поисковых запросовСпециальность 05.13.18 – Математическое моделирование, численныеметоды и комплексы программАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква - 20122Работа выполнена на кафедре инноваций и бизнеса в сфере информационныхтехнологий Национального исследовательского университета «Высшаяшкола экономики»Научный руководительдоктор технических наукФомичёв Владимир АлександровичОфициальные оппоненты:Норенков Игорь Петровичдоктор технических наук, профессор,заслуженный деятель науки и техники РФ,МГТУ им.
Н. Э. Баумана, зав. кафедрой"Системы автоматизированногопроектирования"Толчеев Владимир Олегович,доктор технических наук, доцент,Национальный исследовательскийуниверситет Московский энергетическийинститут, профессор кафедры управленияи информатикиВедущая организация:Институт системного анализа РАНЗащита состоится «16» мая 2012 г.
в 15:00 на заседании диссертационногосовета Д 212.048.09 при Национальном исследовательском университете«Высшая школа экономики» (НИУ ВШЭ) по адресу: 105187, г.Москва, ул.Кирпичная, д.33, ауд. -- .С диссертацией можно ознакомиться в библиотеке НИУ ВШЭ по адресу:101990, г. Москва, ул. Мясницкая, д. 20.Автореферат разослан «--» апреля 2012 г.Ученый секретарьдиссертационного совета,доктор технических наукФомичёв Владимир Александрович3I.ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы исследования. В настоящее время параллельно сростом объемов информации в Интернете происходит разработка новых исовершенствование существующих подходов к ее поиску. Все большуюактуальность приобретают средства семантического поиска, под которымипонимаются системы,принимающие на вход некоторый запрос,обрабатывающие его с использованием рассуждений над специфичной базойзнаний и возвращающие совместимые результаты.
Входным запросом можетявляться, например, вопрос на естественном языке (ЕЯ), представлениевопроса при помощи триплетов, графическое представление, набор ключевыхслов, отдельные фразы и т.д. В роли базы знаний могут выступать онтологии,аннотированные массивы текста, текстовые документы, Веб, XMLдокументы, RDF документы, HTML документы и т.д. В нашей странезначительный вклад в развитие семантического поиска внесли Э.Э.
Гасанов,А.Е. Ермаков, А.Н. Королев, И.П. Кузнецов, Д.Г. Лахути, Н.Н. Леонтьева,М.Г. Мальковский, А.Г. Мацкевич, А.С. Нариньяни, И. С. Некрестьянов, Г.С.Осипов, И.В. Сегалович, А.В. Сокирко, Н.В. Перцов, Н.Н. Перцова, Э.В.Попов, В.Ш. Рубашкин, И.А. Тихомиров, В.О. Толчеев, В.А. Тузов, В.А.Фомичёв, Н.П. Харин, В.Ф. Хорошевский и другие учёные.Однако, несмотря на большое разнообразие методов и подходов ксемантическому поиску, у существующих поисковых систем имеется ряднедостатков. К ним можно отнести отсутствие семантического описанияэлектронных документов (в большинстве случаев), высокую трудоемкостьалгоритмизации автоматизированного создания данного описания, большойразрыв между технологиями семантического веба и гипертекстового поиска(развиваются параллельно и независимо друг от друга), недостаточныеинтеллектуальныевозможностианализаторовестественно-языковыхзапросов вопросно-ответных систем.Объект исследования: методы семантической обработки поисковымисистемами естественно-языковых запросов.Предмет исследования: методы применения формальных средств длясемантического анализа и преобразования поисковых запросов наестественном языке, проектирования лингвистической базы знаний, а такжебаз знаний для поддержки преобразования запросов и поиска.Цель исследования: разработать такой метод семантическогопреобразования важных с практической точки зрения естественно-языковыхпоисковых запросов в форму (множество производных запросов),позволяющую традиционным системам поиска обнаружить наиболеерелевантные результаты, который предусматривает применение формальныхсредств для описания (а) системы концептуальных единиц первичногоуровня, (б) логической структуры базы знаний для поддержкипреобразования запросов и поиска.4Задачи исследования:1.Провести анализ состояния исследований по семантической обработкепоисковыми системами вопросов на естественном языке (ЕЯ) с цельювыявления классов вопросов, недостаточно проработанных в научнойлитературе и имеющих большую практическую значимость для системестественно-языкового поиска.2.
По результатам проведенного анализа разработать метод семантическогопреобразования, который бы позволил трансформировать поданный на входестественно-языковой запрос в форму (множество производных запросов),позволяющую повысить релевантность документов, выдаваемых системамипоиска по ключевым словам.3.Выбратьнаиболеесоответствующую предложенномуметодуметодологическую основу исследования для построения математическихмоделей компонентов базы знаний, необходимых для семантическогопреобразования естественно-языковых запросов.4. Построить математические модели компонентов базы знаний,необходимых для семантического преобразования поисковых запросов длявыбранных типов вопросов.
Построить итоговую математическую модель дляподдержки семантического преобразования запросов и поиска.5. На основе предложенных моделей разработать алгоритмы анализа ипреобразования поисковых запросов в форму (множество производныхзапросов), позволяющую повысить релевантность документов, выдаваемыхсистемами поиска по ключевым словам. Разработать алгоритм ранжированиярезультатов по степени релевантности поисковому запросу.6 . Разработать программный комплекс, реализующий предложенный методсемантического преобразования поисковых запросов.7. Провести тестирование разработанного программного комплекса ипроанализировать полученные результаты.Теоретико-методологическую основу исследования составляют теорияалгоритмов, теория графов, теория контекстно-свободных грамматик, теорияК-представлений, методы теоретического программирования и Вебпрограммирования.Достоверность и обоснованность научных положений подтверждаетсякорректным применением математического аппарата теории Кпредставлений, теории контекстно-свободных грамматик, теории алгоритмови результатами тестирования разработанной компьютерной программы.В ходе исследования была решена научная задача создания такогометода семантического преобразования естественно-языковых запросов врасширенную форму, позволяющую традиционным поисковым системамполучать более релевантные результаты, который предусматриваетприменение формальных средств для описания (а) системы первичныхединиц концептуального уровня, (б) логической структуры базы знаний для5поддержки преобразования запросов и поиска, (в) шаблонов семантическихтрансформаций, необходимых для преобразования поисковых запросов.Теоретическая значимость исследования.
Впервые предложенбазирующийся на математической модели подсистемы базы знаний методсемантического преобразования ЕЯ-запросов поисковых систем (ПС) в форму(множество производных запросов), позволяющую повысить релевантностьрезультатов работы системы поиска по ключевым словам.Практическая значимость исследования состоит в том, что предложенновый подход к анализу и преобразованию ЕЯ-запросов поисковых систем втакую форму (множество производных запросов), которая позволяетповысить релевантность документов, получаемых от традиционныхпоисковых систем.
Данный подход базируется на построении математическихмоделей семантических и семантико-синтаксических объектов, которыеиспользуются алгоритмами построения множества преобразованныхзапросов. Разработанные алгоритмы позволяют определять типы и подтипыЕЯ-запросов ПС, а также выделять объекты интереса запросов. На основеразработанной модели базы знаний для поддержки преобразования запросови поиска в зависимости от типа запроса и выделенных объектов интересапроисходит построение множества семантически преобразованных запросов,которые подаются на вход традиционной ПС.
Разработанный алгоритмранжирования результатов поисковой выдачи позволяет повыситьрелевантность результатов по сравнению с системами поиска по ключевымсловам. Математический подход, базирующейся на теории К-представлений,является предметно независимым и может быть использован припроектировании базы знаний для поддержки преобразования запросов ипоиска в разных предметных областях. Важным аспектом практическойценности разработанного комплекса является возможность его интеграции слюбым количеством поисковых систем, а также возможность управленияинформацией в базе знаний с целью повышения соответствия результатовпоиска информационной потребности пользователей, что не требует внесенияизменений в разработанные алгоритмы.Полученные в диссертации результаты использованы в научных ипроектныхисследованияхкомпании«Вокском–ГолосовыеТелекоммуникации» (Москва), а также в лекционных и лабораторныхзанятиях по дисциплине «Проектирование лингвистических процессоров» накафедре «Информационные технологии» «МАТИ» – Российскогогосударственного технологического университета им К.Э.
Циолковского.Основные положения, выносимые на защиту:1. Разработан комплекс математических моделей семантических исемантико-синтаксических объектов, предназначенных для расширенияпользовательских поисковых запросов:1.1. Математическая модель проблемно-ориентированной системы6первичных единиц концептуального уровня, используемой дляпостроения множества преобразованных аспектно-ориентированныхзапросов.1.2. Математическая модель концептуальной базы целей,используемая для преобразования запросов достижения целей.1.3. Математическая модель концептуальной базы знаний обизменениях множеств, используемой для поддержки преобразованиязапросов об изменениях состава множеств.1.4.