Главная » Просмотр файлов » Диссертация

Диссертация (1137159), страница 7

Файл №1137159 Диссертация (Математическое моделирование и программная реализация семантического преобразования поисковых запросов) 7 страницаДиссертация (1137159) страница 72019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

Системыметапоиска позволяют пользователям один раз задавать критерии поиска изатем получать доступ к результатам работы нескольких ПС одновременно.Предпосылкой существования и функционирования таких систем являетсято, что Интернет (Веб) слишком огромен для индексирования любой отдельновзятой ПС, и более комплексные результаты поиска могут быть полученыобъединением результатов работы нескольких поисковых систем. Это такжепредоставляет пользователям возможность пользоваться одной поисковой35системой, вместо нескольких различных. С точки зрения программнойреализации, системы метапоиска являются гибридными приложениями.Зачастую, в системах ЕЯ-поиска используются методы машинного обучения–научнойдисциплины,посвященнойпроектированиюиразработкеалгоритмов, позволяющих компьютерам адаптировать свое поведение взависимости от эмпирической информации, поступающей извне (например, избазы данных или какой-либо внешней системы).1.3.1 Обзор зарубежных естественно-языковых поисковых системРассмотрим некоторые из существующих и функционирующих зарубежныхЕЯПС.

Краткое описание систем представлено в Таблице 1.5.Таблица 1.5. Описание некоторых из существующих естественно-языковыхпоисковых систем.СистемаBrainboostОписаниеBrainboost является системой метапоиска, разработанной дляпредоставления ответов на вопросы, сформированные на ЕЯ1. Внастоящее время поддерживается только аглийский язык. ЯдроBrainboost использует техники машинного обучения и анализаестественного языка для ответов на вопросы пользователей.Brainboost,в отличие от традиционных ПС, генерируетмножество различных запросов, которые затем передает втрадиционныесистемыпоискаинформации.Текстыдокументов, полученных от ПС, анализируются на наличие вних ответов на вопрос, введенный пользователем.

Затем ответы,обнаруженные в данных документах, ранжируются при помощиалгоритма AnswerRank и возвращаются пользователю.HakiaHakia2–использующая12этопоисковаятехнологиюсистемаQDEXдля(QueryИнтернета,DetectionДомашняя страница системы Brainboost. Режим доступа: http://www.brainboost.com/.Домашняя страница системы Hakia. Режим доступа: http://www.hakia.com/.and36Extraction), являющуюся альтернативной новой архитектуройдля индексации.

При индексации электронных документовиспользуется алгоритм SemanticRank, который сочетает в себерешения из таких дисциплин, как онтологическая семантика,нечеткая логика, компьютерная лингвистика и математика.Lexxe3 – поисковая система для Интернета, котораяLexxeиспользует обработку естественно-языковых текстов запросов.Поисковыезапросымогутбытьпредставленыкаквопросительными предложениями, например, «Сколько летWikipedia?», так и ключевыми словами и фразами.Lexxe является достаточно новой поисковой системой, чтотребует значительных улучшений в области обработки ЕЯтекстов, потому что на многие вопросы система возвращаетабсолютно нерелевантные ответы.Powerset4Powersetявляетсякомпанией,разрабатывающейестественно-языковую поисковую систему для Интернета,которая сможет находить ответы на вопросы, задаваемыепользователем.

Например, когда в традиционную поисковуюсистему подается запрос «В каком из штатов США самыйвысокий подоходный налог?», то система игнорирует еговопросительную форму и осуществляет поиск по ключевымсловам {«штат», «доход», «налог»}.1.3.2Обзоротечественныхестественно-языковыхпоисковыхсистемИз отечественных систем естественно-языкового и семантического поисканаиболее интересными представляются AskNet, Exactus и RCO (Russian ContextOptimizer).34Домашняя страница системы Lexxe. Режим доступа: http://www.lexxe.com/.Домашняя страница компании Powerset. Режим доступа: http://www.powerset.com/.37Таблица 1.6. Описание отечественных естественно-языковых поисковыхсистем.Система ОписаниеAskNetСемантическийобъектованализ(учитываемыхзаключаетсявклассификациииерархическихсемантическихкатегорий), а также выявлении отношений между ними.Используютсяпредопределенныеморфологическомпредложений,понятийсловаре,выявление(семантическихнесколькимисловами).семантическиесинтаксическийтипыванализкомбинаторныхсемантическихобъектов,представленныхПроводитсясопоставлениесемантически эквивалентных, но синтаксически различныхконструкций (активный, пассивный залог).

Для выявлениясемантических объектов используются регулярные выражения,синтаксическиеисемантическиеправилапродукции,порождающие грамматики (виртуальные словари) чисел и т.п.[10]RCOДля решения задач естественно-языкового поиска предлагаетсяподход, основанный на преобразовании входных запросов с ихпоследующей передачей в целевую систему поиска поключевым словам [2, 16]. Для расширения поисковых запросовпредназначен модуль RCO Query Parser , который разбираетконтекстный поисковый запрос на русском языке и, с учетомграмматики и семантики, строит оптимальное поисковоевыражение для обработки в поисковой машине, котораяиндексирует текст, ничего не зная о языке, за исключениемтого, что слова разделяются пробелами.Предлагаемый в [2] способ поиска основан на использованиисинтаксических связей между словами поискового запроса длявыбора оптимального выражения на языке запросов целевой38поисковой машины.

Акцент данного метода ставится наиспользование различных операторов между словами запроса,чтопозволяетболеегибкоманипулироватьзапросом,передаваемым целевой поисковой машине. При отсутствиирезультатовпоискапопервоначальномувариантуоптимизированного запроса формируется последовательностьменеестрогихсохранениемпоисковыхзапросовпервоначальногосмысла,смаксимальнымчтообеспечиваетпоследовательное повышение полноты поиска с минимальнойпотерей точности [2, 16].

Основная идея метода заключается виспользовании синтаксических связей между словами запросадляпримененияразличныхпоисковыхотражающих силу этих связей, аограничений,также в последующемпошаговом ослаблении ограничений (вплоть до TF ⋅ IDF ) длядостижения желаемой полноты [16].ExactusСистема базируется на реляционно-ситуационном методепоиска и анализа текстов, предложенном Г.С. Осиповым[15,14]. Данный метод опирается на коммуникативную грамматикурусского языка[4, 3] и на теорию неоднородных семантическихсетей[12, 1].Основным понятием в коммуникативной грамматике являетсяпонятие синтаксемы как минимальной единицы высказывания.Синтаксемойназываетсясемантическаяединицаминимальнаяязыка,несущаясинтактикообобщенныйкатегориальный смысл и характеризующаяся взаимодействиемморфологических,семантическихифункциональныхпризнаков[15].

Для анализа предложений и словосочетанийодних синтаксем недостаточно, важна их сочетаемость, котораяопределяется семейством бинарных отношений на множествесинтаксем [13]. Данные отношения отражают их семантические39связи, т. е. являются ситуативными отношениями понятий впонятийной системе предметной области. Для определениясинтаксем и отношений между ними в рассматриваемом методеописанаследующаяпоследовательностьшагов:(1)морфологический анализ (распознаются слова, выделяютсялексемы),(2)синтаксическийанализ(установлениезависимостей между лексемами и выделение синтаксем), (3)реляционно-ситуационныйанализзначений(выявлениесинтаксем и семантических связей между ними).Результатом работы данного метода являются структуры,описывающие семантическую информацию, передаваемуютекстом,ввидереляционно-ситуационнойформальнойточкизренияданныемодели.структурыСявляютсянеоднородными семантическими сетями [12, 1] и называютсясемантическими образами текстов запросов и документов.При ранжировании документов больший ранг получает тотдокумент, в котором слова запроса находятся в тех жесемантических отношениях, в которых они входят в данныйзапрос.

Однако для быстрого поиска необходимо созданиесемантического индекса, содержащего список вхождений словв документы, статистический вес значимости слова в документе( TF ⋅ IDF ) и значение соответствующей синтаксемы.1.4. Постановка задачи диссертационного исследованияАнализ научной литературы показал, что существует большое разнообразиеметодов и алгоритмов поиска информации в различных источниках. РазвитиеСемантического Веба и разнообразие подходов, применяемых для поиска иизвлечения информации, а также значительное количество естественноязыковыхисемантическихпоисковыхсистемпоказывает,чтотема40семантического поиска информации по естественно-языковым запросам (ЕЯзапросам) является весьма актуальной.Однако, несмотря на большое разнообразие методов и подходов ксемантическому поиску,у существующих поисковых систем имеется ряднедостатков.

К ним можно отнести отсутствие семантического описанияэлектронных документов (в большинстве случаев), высокую трудоемкостьалгоритмизации автоматизированного создания такого описания, большойразрыв между технологиями семантического веба и гипертекстового поиска(развиваются параллельно и независимо друг от друга), недостаточныеинтеллектуальные возможности анализаторов ЕЯ-запросов.Всвязисэтимпредлагаетсяразработатьметодпроектированиясемантически-ориентированной системы мета-поиска с естественно-языковым(русскоязычным) интерфейсом, позволяющим преобразовать поступивший навход поисковый запрос в такую форму, которая даст наиболее релевантныйрезультат в системе поиска по ключевым словам.Для достижения этой цели необходимо решить ряд задач:1.

Характеристики

Список файлов диссертации

Математическое моделирование и программная реализация семантического преобразования поисковых запросов
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6488
Авторов
на СтудИзбе
303
Средний доход
с одного платного файла
Обучение Подробнее