Автореферат (Математическое моделирование и программная реализация семантического преобразования поисковых запросов), страница 3
Описание файла
Файл "Автореферат" внутри архива находится в папке "Математическое моделирование и программная реализация семантического преобразования поисковых запросов". PDF-файл из архива "Математическое моделирование и программная реализация семантического преобразования поисковых запросов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Тогдаконцептуальный базис B = (S, Ct, Ql), где Ct=(X,V, tp, F), называетсясемантическим ядром расширенного концептуального базиса Extbs иобозначается через Sem-Core(Extbs).В параграфе 2.7 предлагается новый метод формального описанияструктуры входных текстов анализатора АО-запросов рассматриваемыхвидов на основе аппарата КС-грамматик. Сначала вводится специальноеполуформальное представление структуры входных запросов, которое будетназываться стем-формой запроса. Название происходит от терминастемминг, обозначающего выделение основы слова, однако в контекстедиссертации стемминг понимается как приведение слова к базовой форме.Шаблоном стем-формы входного запроса будем называть запрос,приведенный к следующему виду: (1) нет ни одной заглавной буквы; (2)каждое слово в запросе находится в базовой форме; (3) набор слов, которыеявляются опциональными, заключаются в фигурные скобки; альтернативныеслова или словосочетания из некоторого набора разделяются вертикальнойчертой; набор альтернативных слов или словосочетаний, любой элементкоторого должен присутствовать в тексте, заключается в квадратные скобки;слова, которые не важны при рассмотрении запроса, заменяются на символ #;слова, следующие друг за другом, связываются при помощи знака «+».Шаблон стем-формы — это формат обобщенного представления стемформы, соответствие которому позволит отнести заданное на входепредложение к одному из типов, а также выделить необходимые объектыинтереса.
В шаблонах используются специальные символы, описанные выше,а также элементы вида ОИn, где n — это порядковый номер (в интервале[1,3]) объекта интереса поискового запроса: ОИ1 — характеристическийобъект, позволяющий определить тип вопроса, ОИ2 и ОИ3 — это объектыинтереса, аспекты которых необходимо найти. Например, шаблон стемформы какой+ # + ОИ1(сущ.)+[выполняет|преследует]+ОИ2? ОИ1=миссия,цель описывает структуру запросов «Какую миссию выполняет Х?» и «Какуюцель преследует Х?».11Для корректной обработки и анализа входных поисковых запросовсистемы структура входных текстов семантического анализатора былаформально описана с использованием контекстно-свободных грамматик.
Дляэтих целей была определена КС-грамматика входного языка запросов. Этаграмматика описывает множество шаблонов стем-форм запросов. Рассмотримнекоторые продукции построенной КС-грамматики:<текст>::=<вопрос_описания_структуры>|<вопрос_описания_характеристик>|<вопрос_описания_работы>|<вопрос_описания_функций>|<вопрос_описания_назначения>|<вопрос_описания_применения>|<вопрос_описания_принадлежности>|<вопрос_описания_различий>|<вопрос_описания_общих_характеристик>|<вопрос_описания_особенностей>|<вопрос_описания_возможностей>;<вопрос_описания_структуры>::=как<набор_символов><специфическая_цепочка_1><набор_символов><возможное_вопросительное_слово><набор_символов><специфическая_цепочка_2><опциональная_цепочка><набор_символов>|возможное_вопросительное_слово><набор_символов><специфическое_существительное><набор_символов>|из что состоять <набор_символов>|изкакой<набор_символов><специфическая_цепочка_2>состоять<набор_символов>;<специфическая_цепочка_1>::=устраивать|структурировать|организовывать;<специфическая_цепочка_2>::=устройство|структура|организация|составляющая|составляющаячасть|компонент|элемент;В параграфах 2.9 – 2.10 разрабатываются алгоритмы семантическогопреобразования аспектно-ориентированных запросов и вспомогательныйструктурированный алгоритм определения типа и объектов интереса запросовданного вида.
Данные алгоритмы базируются на математической моделипроблемно-ориентированной системы первичных единиц концептуальногоуровня, что делает их независимыми от предметной области и платформыреализации. Применяемый подход на основе использования словарей словиндикаторов позволяет более гибко варьировать результаты работыалгоритма без его изменения, т. е., внося изменения в словарь, можно влиятьна результаты работы алгоритма без вмешательства в его логику. Алгоритмопределения типа запроса на первом шаге использует специальныйподалгоритм, позволяющий сузить спектр рассматриваемых типов запросов,что значительно сказывается на результатах работы (уменьшается количествопроверяемых вариантов).
Кроме того, в алгоритме специальным образомобрабатываются смешанные ситуации, когда присутствуют несколькохарактеристических слов-индикаторов разных типов. Алгоритм определенияобъектов интереса запроса использует несколько подалгоритмов,специфических для ситуаций, возникающих при анализе запросов.12Специальным образом обрабатываются: запросы с двумя объектами интереса;запросы, в которых объект интереса расположен перед характеристическимсловом; запросы описания принадлежности и особенностей (в таких запросахприсутствует дополнительный объект интереса).В третьей главе предлагается новый подход к семантической обработкезапросов о достижении целей и запросов о возможных изменениях множеств.Вопросами достижения целей будем называть предложения, в которыхзапрашивается информация, касающаяся результатов функционированиятого или иного объекта или системы (“Какие неудачи испытала компания Sunв 2010 году?”, "Каковы успехи компании Intel за 2011 год?" и т.д.).
В качествемодельной предметной области была выбрана область предпринимательскойдеятельности: анализируются успехи и неудачи организаций (компаний). Подцелью компании понимается конечный желаемый результат, которыйопределяется в процессе планирования и регулируется функциямиуправления.Сначала строится математическая модель компонента базы знанийпоисковой системы, необходимого для семантического преобразованиявопросов о достижении целей. Для этого определен класс формальныхобъектов, названных концептуальными базами целей (к.б.ц.).Пусть Extbs – произвольный расширенный концептуальный базис (р.к.б), иконцептуальный базис B является семантическим ядром Extbs. Тогдаконцептуальной базой целей (к.б.ц.), согласованной с р.к.б Extbs, называетсянабор Gbase вида (B, цел, рац, событие, Goals), где тройка (B, цел, рац)является концептуальным базисом с числовой разметкой, событие являетсявыделенным сортом из множества St(B), и выполняются следующие условия:(1) множество Acts(B) = { y из X(B) | tp(y) = ↑событие} непусто и конечно; (2)первичный информационный универсум X(B) включает такой элемент#Объект-интереса, что тип tp(#Объект-интереса) является конкретизациейбазового типа [объект];(3) универсум X(B) включает элементы (обозначениятематических ролей) Агент и Роль2, причем tp(Агент) = {( событие, s)},tp(Роль2) = {( событие, t)}, где s и t – элементы множества сортов St(B),причем ни один из этих сортов не является конкретизацией сорта P (сорт«смысл сообщения») или сорта событие; (4) Goals является некоторымконечным множеством выражений СК-языка (стандартного концептуальногоязыка) Ls(B) вида<event-concept * (Агент, d1)(Роль2, d2), estimation>,(1)где event-concept принадлежит множеству Acts(B), d1 и d2 – различныеэлементы универсума X(B), причем какой-либо из этих элементов являетсясимволом #Объект-интереса, estimation – обозначение рационального числаот -1 до 1, отличного от 0.Пример.
Множество Goals может включать цепочку <поглощение-орг *(Агент, #Объект-интереса)(Роль2, нек компания), 1>.13В отличие от понятия концептуального базиса, введенного в теории Кпредставлений, концептуальные базы целей включают формальныепредставления целей интеллектуальных систем (в том числе организаций),являющиеся выражениями СК-языков. Данная модель позволяет учитыватьфакты успехов либо неудач какой-либо компании. Однако длясемантического расширения поисковых запросов этих данных недостаточно.Необходимо иметь возможность преобразовывать данные факты всловосочетания, которые наиболее вероятно встречаются в электронныхдокументах. Следует учитывать, что преобразование должно учитыватьморфологические свойства слов и синтаксис фраз, чтобы наиболее гибкотрансформировать факты в ЕЯ-выражения.
Поэтому вводится понятиешаблона семантической трансформации.Пусть Gbase - концептуальная база целей (к.б.ц.) вида (B, цел, рац,событие, Goals), Morph-values – конечное множество символов,интерпретируемых как значения различных морфологических признаков(существит, глагол, прош-время, наст-время, пассив-залог и т.д.). Тогдашаблоном семантической трансформации, порожденным к.б.ц.Gbase имножеством Morph-values, называется произвольный упорядоченный наборвида (sem-pattern, X, Y, Z, prop-chain) ,где sem-pattern – элементмножества Goals, (X, Y, Z) – произвольная перестановка без повторений изсимволов #A#, #Pred#, #B#, и prop-chain – цепочка вида v[1] * v[2] * … * v[k],где 1 ≤ k , v[1] , …, v[k] – элементы множества Morph-values.Пример.