Диссертация (1137159), страница 8
Текст из файла (страница 8)
Провести анализ состояния исследований по семантической обработкевопросов на естественном языке с целью выявления классов вопросов,имеющих недостаточную степень проработки и большую практическуюзначимость для систем естественно-языкового поиска.2. По результатам проведенного анализа разработать метод семантическогопреобразования, который бы давал возможность преобразовать поданный навход ЕЯ-запрос в форму, позволяющую получить наиболее релевантныйрезультат в системе поиска по ключевым словам.3. Выбратьнаиболеесоответствующуюпредложенномуметодуметодологическую основу исследования для построения математическихмоделей, полезных для описания семантического преобразования естественноязыковых запросов.4.
Построитьматематическиемодели,полезныедляописаниясемантического преобразования поисковых запросов для выбранных типов41вопросов. Построить итоговую математическую модель для поддержкисемантически-ориентированного преобразования запросов и поиска.5. На основе предложенных моделей разработать алгоритмы анализа ипреобразования поисковых запросов в форму, позволяющую получитьнаиболее релевантный результат работы системы поиска по ключевым словам.Разработать алгоритм ранжирования результатов по степени релевантностипоисковому запросу.6.
Разработать программный комплекс, реализующий предложенный методсемантического преобразования поисковых запросов и мета-поиска.7. Провести исследование работоспособности разработанных алгоритмов иих соответствия предложенному методу. На основании проведенного анализасделатьвыводопрактическойприменимостиирезультативностипредложенного метода.1.5. Выводы по главе 1Проанализировано современное состояние исследований по разработкесистем синтаксического и семантического поиска информации во ВсемирнойПаутине (Вебе) и корпоративных внутренних сетях.
Детально рассмотреныпринципы поиска по ключевым словам и логика, применяемая в системахтакого класса, а также наиболее распространенные методы ранжированиярезультатов поиска. Проводтися обзор и классификация систем, реализующихпринципы семантического поиска. Значительное внимание уделяется описаниюпринципов разработки естественно-языковых поисковых систем и анализухарактеристикРассматриваютсяосновныхпредставителейотечественныеисистемзарубежныеданногоразработкивкласса.областисемантического поиска, методы и модели, применяемые в таких системах.Формулируется задача диссертационного исследования.42Глава 2. Формализация и алгоритмизация обработки аспектноориентированных запросовВ данной главе рассматриваются важные для приложений, но недостаточноизученные типы естественно-языковых запросов и предлагается новый подходксемантически-ориентированномупоискуинформациивИнтернете,основанный на семантическом преобразовании входного запроса в форму,позволяющую традиционной поисковой системе найти более релевантные(семантически) документы.
Для каждого из выделенных типов запросовпредлагается общее описание методики семантического преобразования.Детально анализируются запросы аспектно-ориентированного типа иразрабатывается математическая модель проблемно-ориентированной системыпервичных единиц концептуального уровня, являющаяся базой для разработкиалгоритмов семантического преобразования запросов данного типа.Проводится анализ структуры аспектно-ориентированных запросов, наосновании которого разрабатывается новый метод формального описанияструктуры входных текстов анализатора запросов данного типа на основеаппарата контекстно-свободных грамматик.Разрабатываются общий план алгоритма семантического преобразованияаспектно-ориентированных запросов и детальные алгоритмы определения типаи объектов интереса запросов данного вида.2.1 .Состояниеисследованийпосемантическойобработкевопросов на естественном языкеВ научной литературе, посвященной алгоритмизации семантическогоанализа естественно-языковых текстов (ЕЯ-текстов), имеется совсем немногоработ,содержащихявнуюилинеявную(легковосстанавливаемую)классификацию входных текстов, являющихся вопросами.В работах В.А.
Фомичева [22, 26, 29, 63] были рассмотрены основные видывопросов, составляющих часть входных текстов алгоритма построенияматричного семантико-синтаксического представления ЕЯ-текста. Приведем43примерывходныхвопросов,рассматриваемыхвкачестветипичныхпредставителей определенных подклассов входных текстов.Частно-утвердительные (или общие) вопросы1. Поставляется ли продукция компании Apple в Россию?Вопросы с вопросительно-относительным местоимением “какой”1. Какой процессор устанавливается в ноутбуке MacBook?2.
Каким рейсом перевозится продукция компании Dell выпуска 2010 года?3. Какие решения, предлагаемые компанией Oracle, предназначены дляподдержки принятия управленческих решений?4. В какие страны поставляется продукция заводов компании Sony,расположенных в Азиатском регионе?5. Какие контейнеры с электронной техникой, поступившие в пятницу,предназначены для ООО “Кубера”?6. В какие страны экспортирует серверы компания IBM?7. Какие статьи опубликованы Мартином Фоулером в 2010 году?Вопросы частноинформативного актуально-синтаксического типа1.
Откуда и для кого поступили 2 трехтонных контейнера с электроникой?2. Где выступал в 2009 году идеолог экстремального программированияМартин Фоулер?3. Где работает лектор Дэн Роусторн?4. Где расположена штаб-квартира компании Asus?5. Для кого предназначены два контейнера с электроникой?Вопросы относительно количества предметов1. Сколько статей, опубликованных Дэном Роусторном с 1990 года,относятся к методологииScrum?2. Сколько трехтонных контейнеров, поступивших в пятницу из Бостона,предназначены ООО “Кубера”?Вопросы относительно количества событий1. Сколько раз в году проходит сертификация Scrum Alliance?2. Сколько раз в прошлом году проводилась сертификация SCJP?44В работе [29] разрабатываетсяпредназначенныйдляструктурированный алгоритм SemSyn,семантико-синтаксическогоанализатекстовизпредставляющих практический интерес подъязыков естественного (русского)языка.
Данный алгоритм базируется на построенной в [29] формальной моделилингвистической базы данных (ЛБД) и на введенном понятии матричногосемантико-синтаксического представления (МССП) ЕЯ-текста. Алгоритмустанавливает смысловые отношения между элементарными значащимиединицами входного текста, отражая эти отношения посредством МССП, азатем строит семантическое представление текста, являющееся выражениемнекоторого СК-языка (К-представлением). Развитием данного алгоритма сталалгоритм SemSynt1 [63], предназначенный для обработки текстов наанглийском, немецком и русском языках, т. е.
по сути являющийсямногоязычным. Важная особенность этого алгоритма заключается в том, что внем не строится синтаксическое представление поданного на вход ЕЯ-текста, асразу устанавливаются семантические отношения между значащими единицамитекста. Оба алгоритма (SemSyn и SemSynt1) полностью описаны при помощиформальных средств и поэтому являются проблемно-независимыми и независят от выбранной платформы реализации и языка программирования.Входные ЕЯ-тексты данных алгоритмов могут выражать высказывания(сообщения), команды, вопросы, относящиеся к рассмотренным выше типам,которые могут (для алгоритма SemSyn) включать причастные обороты ипридаточные определительные предложения.В вопросно-ответной системе ORAKEL[44] используется оригинальныйподход, основанный на трансформации поисковых запросов на естественномязыке в форму, позволяющую найти конкретный ответ в специализированнойбазе знаний, содержащей онтологическуюинформацию о конкретнойпредметной области (OWL/SPARQL).
Первоначальный поисковый запроспреобразуется в формулы логики предикатов первого порядка, которые затемконвертируются в выражения на языке запросов SPARQL.45В[44] рассматриваютсявопросы,касающиесяконкретныхфактов,потенциально содержащихся в онтологической базе знаний (factoid questions),начинающиеся с вопросительных местоимений «кто», «что», «где», «какой» ит.д. Также рассматриваются вопросы, начинающиеся со слов «сколько» и«насколько» для запросов из базы специфических значений. Пример:«Насколько Париж большой», «Сколько жителей в Париже».
Рассмотримпримеры типовых вопросов, обрабатываемых системой:1. Какие работы на конференцию прислал Джон Дэвис?2. Какие журнальные статьи были написаны и кем?3. Какая река протекает через наибольшее количество городов?4. Какие реки протекают через большее количество городов, чем Рейн?5. Кто написал «The future of web services»?6.
Какие документы посвящены логике предикат и концептуальным графам?По данным примерам хорошо прослеживается ориентация языка входныхЕЯ-запросов на специализированный язык запросов к базам знаний.По результатам проведенного анализа были выделены для исследованияследующие интересные с научной точки зрения и практически важные группывопросов, методы семантической обработки которых в литературе отсутствуютили недостаточно проработаны:1. аспектно-ориентированные (вопросы, касающиеся характеристик объектаинтереса либо его особенностей).
Примеры: «Каковы характеристикикомпьютера?», «Как устроен мейнфрейм?»;2. вопросы достижения целей (вопросы об успехах или неудачах тех илииных интеллектуальных систем). Примеры: «Каковы успехи компанииOracle?», «Какие неудачи были у компании Microsoft два года назад?»;3. вопросы, касающиеся сохранения или изменения состава того или иногомножества. Примеры: «Какие изменения были в руководстве компанииGoogle?», «Какие изменения были в компании Яндекс в департаментеэксплуатации?».46Формализация обработки вопросов перечисленных видов в доступнойнаучной литературе не рассматривалась.
В связи с этим в даннойдиссертационной работе ставится и решается задача разработки и программнойреализации новых, взаимосвязанных методов семантической обработкивопросов видов (1) – (3).2.2 Базовыепринципыновогоподходаксемантически-ориентированному поиску информации в ИнтернетеРассмотрим реалистичный сценарий использования выделенных типоввопросов на примере информационной потребности пользователя, связанной сосведениями об успехах компаний, выпускаемых ими продуктах и измененияхсостава тех или иных организационных единиц компаний, представленныхмножествами (например, профсоюз или совет директоров).