Диссертация (Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах), страница 19

PDF-файл Диссертация (Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах), страница 19 Технические науки (27498): Диссертация - Аспирантура и докторантураДиссертация (Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах) - PDF, страница 19 (27498) -2019-03-122019-03-12СтудИзба

Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах701

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах". PDF-файл из архива "Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 19 страницы из PDF

28):Рез = {1,2,6,10,13,28,30,31,33,42,44,45,53,72,74,78,79,80,81,83,84,85}Рис. 28. Список результатов, выданных по запросу пользователя1334.5.2. Анализ эффективности разработанного прототипа ИПС наоснове прецедентов4.5.2.1. Оценкаинтегральногоинформационного поиска ИПСпоказателяэффективностиЭффективность информационного поиска документов, обеспечиваемаяИПС, оценивается по двум показателям:kп – коэффициент информационной полноты;kш – коэффициент информационного шума.Коэффициенты kп и kш принимают значения в интервале от 0 до 1 (рис. 29).В некоторых источниках эти коэффициенты выражают в процентах.Введем следующие обозначения:D – множество документов винформационном хранилище, di  D – i-й документ, Dj  D – подмножестводокументов. В данном контексте под документом будем понимать, каксобственно текстовый или гипертекстовый документ, так и отдельную запись вБД.Пусть ИПС предъявлен i-й запрос.

ИПС содержит множество документовDi, релевантных этому запросу. В результате поиска будет получено множествоDi*.Определим коэффициенты полноты и шума:П =| ∩∗ |,| |Ш =|∗ \ ||∗ |.134Рис. 29. Смысл коэффициентов полноты и шумаЭффективностьинформационногопоискаЕ1выражаетсячерезкоэффициенты Ш и П , что позволяет рассматривать ее в качествеинтегрального показателя эффективности информационного поиска ИПС.В литературе для функции Е1(Ш , П ) вместо kш принято использоватьобратный ему показатель – коэффициент точности Т .Т = 1 − Ш =| ∩∗ ||0 |.Таким образом, запишем данную функцию в виде:1 =2Т ПТ +П.Оценка эффективности работы ИПС на основе прецедентов выполняласьна наборе из различных запросов (15 запросов для формирования БП CBRагентов и 5 тестовых запросов, приведенных в приложении 2) к ИПС, в БДкоторойбылопроиндексированопоисковымроботом742документа.Первоначальный список URL адресов для поискового робота был сформированна основе списка TOP 100 результатов, выданных тремя поисковыми машинами(Google, Yandex, Bing) по запросу «Среда разработки Visual Studio .NET и языкC#».135В таблице 1 и на рис.

30-32 приведены результаты вычисления показателейэффективности информационного поиска для стандартной ИПС и ИПС на основепополняемой БП одного CBR-агента.Таблица 1. Значения показателей эффективности для стандартной ИПС иИПС1 прецедентв БП CBR-агента2 прецедентав БП CBR-агента3 прецедентав БП CBR-агента4 прецедентав БП CBR-агента5 прецедентовв БП CBR-агента6 прецедентовв БП CBR-агента7 прецедентовв БП CBR-агента8 прецедентовв БП CBR-агента9 прецедентовв БП CBR-агента10 прецедентовв БП CBR-агента11 прецедентовв БП CBR-агента12 прецедентовв БП CBR-агента13 прецедентовв БП CBR-агента14 прецедентовв БП CBR-агента15 прецедентовв БП CBR-агентаИПС на основе пополняемой БП одного CBR-агентаkП0.680.370.390.400.430.470.500.520.540.560.590.600.610.630.640.66kШ0.330.170.170.180.190.210.220.230.230.240.250.250.250.260.270.290.700.510.520.530.550.570.690.600.600.610.630.630.640.650.650.67E1ПОЛНОТА ИНФОРМАЦИОННОГО ПОИСКА10.90.80.7kП0.60.50.40.30.20.101234567891011121314Количество прецедентов в БПИПС на основе CBRИПСРис.

30. Значения kП для ИПС «STRAY SEARCH» с использованиемCBR-агентов и без использования CBR-агентов15136ИНФОРМАЦИОННАЯ ТОЧНОСТЬ10.90.80.7kТ0.60.50.40.30.20.10123456789101112131415Количество прецедентов в БПИПС на основе CBRИПСРис. 31. Значения kТ для ИПС «STRAY SEARCH» с использованиемCBR-агентов и без использования CBR-агентовИНТЕГРАЛЬНЫЕ ПОКАЗАТЕЛИ10.90.80.7Е10.60.50.40.30.20.1012345678910111213Количество прецедентов в БПИПС на основе CBRИПСРис.

32. Значения Е1 для ИПС «STRAY SEARCH» с использованием1415137CBR-агентов и без использования CBR-агентовИз графиков видно, что поиск с использованием CBR-агента, которыйнакапливает опыт (информацию о пользовательских запросах), позволяетснизить информационный шум, но интегральные показатели отличаются нестоль значительно, так как стандартные механизмы поиска обеспечиваютбольшее значение коэффициента полноты.Следует отметить, что применение CBR механизмов позволяет снизитьколичество обращений к серверу поисковой машины (индексу), что снижаетнагрузку на поисковую машину, так как часть запросов может обрабатыватьсянепосредственно на стороне клиента, а также данный подход позволяет вопределённой степени решить вопрос с конфиденциальностью данных.Использование предложенной мультиагентной архитектуры для ИПС наоснове CBR предполагает, что результат ответа на запрос может быть получен врезультате взаимодействия CBR-агентов.Была рассмотрена работа ИПС на основе CBR для рабочей группы из 5CBR-агентов, БП которых содержат по пять прецедентов (пользовательскихзапросов) из 15 запросов, использованных в предыдущем примере (рис.

33).138Рис. 33. БП пяти CBR-агентов из одной рабочей группыВтаблице2приведенызначенияпоказателейэффективностиинформационного поиска для пяти CBR-агентов по отдельности и всей рабочейгруппы.Таблица 2. Значения показателей эффективности информационного поиска длястандартной ИПС и ИПС с рабочей группы из 5 CBR-агентовИПСCBR-агент1CBR-агент2CBR-агент3CBR-агент4CBR-агент5WorkgroupkП0.680.580.630.620.530.550.67kШ0.330.700.260.600.290.610.280.580.220.630.200.630.310.68E1При ответе на новый запрос CBR-агент может не получить результата, тогданеобходимо обращаться к индексу ИПС или воспользоваться мультиагентнойИПС на основе CBR, то есть CBR-агенты из рабочей группы пытаются найтиответ на исходный запрос и результаты поиска всех CBR-агентов должны бытьобъединены в один результирующий список.4.5.2.2.

Оценка эффективности работы ИПС «STRAY SEARCH» сиспользованием метрик качества ранжированияСуществует несколько метрик, по которым оценивают и сравниваюткачество работы алгоритмов ранжирования на выборке с асессорными оценками.Часто параметры ранжирующей модели стремятся подогнать так, чтобымаксимизировать значение одной из этих метрик.Примеры метрик: DCG и NDCG; Точность@n, NDCG@n (@n означает, что значение метрики считаетсятолько по n лучшим документам);139— разработка компании Яндекс.DCG — discounted cumulative gain или приведенная суммарнаяэффективность релевантности рассчитывается по следующей формуле:2 − 1 = ∑,2 ( + 1)=1где i-порядковый номер результата, а rel — степень соответствия запросу.В работе значение DCG вычисляется по указанной выше формуле с учетомсписка ТОП 100 (приложение 2), оценивая релевантность rel от 1 до 4.

«4» –высокая релевантность, если документ оказался во всех выданных в ТОП 100результатах для четырёх поисковых машин (Google, Yandex, Bing, CBR). «3» –документ оказался в ТОП 100 результатов, выданных тремя поисковымимашинами, «2» – документ оказался в ТОП 100 результатов, выданных двумя изчетырех поисковыми машинами и самая низкая релевантность «1» – документоказался в ТОП 100 результатов, только одной поисковой машины.На сегодняшний день в теоретическом анализе ранжирования документовчаще всего используется метрика NDCG (Normalized Discounted CumulativeGain).

NDCG – метрика качества ранжирования, вычисляемая по спискудокументам с оценкой релевантности. Для каждого запроса учитывается idпользователя, список слов в запросе, TOP 100 позиций из полученныхрезультатов, номер позиции, которую выбрал пользователь.Нормируем результат, разделив реальный DCG на идеальный: =где IDCG — значение DCG, если ранжировать документы по убываниюассессорских оценок релевантности.Рассмотрим расчет показателей ранжирования для сравнения работы ИПС«STRAY SEARCH» с поисковыми машинами (Google, Yandex, Bing). В качестветес140Разработка .NET приложений}.На рис. 34 приведены результаты вычисления оценок с использованиемметрик качества ранжирования по TOP 100 для трех поисковых машин (Google,Yandex, Bing) и ИПС «STRAY SEARCH» для одного обученного СBR-агента ирабочей группы СBR-агентов.Рис.

34. Результаты вычисления оценок с использованием метрик качестваранжированияВтаблице3приведеныусредненныезначениядляоценоксиспользованием метрик качества ранжирования.Таблица 3. Значения оценок с использованием метрик качества ранжированияDCGIDCGNDCGGoogle60.6072.740.833Yandex59.6672.980.820Bing56.9472.460.790CBR57.7371.720.804CBR Group64.0178.310.811Вычисленные показатели для ИПС «STRAY SEARCH» при выполнениитестовых запросов по выбранной тематике оказались незначительно нижеаналогичных показателей для поисковых машин Google и Yandex и вышепоказателей для поисковых машин Bing.

На основе полученных оценок можносделать вывод, что эффективность работы ИПС на основе прецедентов (для141одного обученного CBR-агента и группы взаимодействующих CBR-агентов)сопоставима с эффективностью работы таких поисковых машин как Google,Yandex, Bing.4.6. Выводы по главе 4 Выполнена программная реализация прототипа ИПС «STRAY SEARCH»на базе разработанной мультиагентной архитектуры ИПС на основепрецедентов с использованием технологии .NET для построенияраспределенных информационных систем ASP.NET, ADO.NET EntityFramework и Windows Communication Foundation (WCF). Приведено описание основных компонентов прототипа ИПС «STRAYSEARCH», обеспечивающих удобный доступ через web-интерфейс кдокументам, содержащимся в индексе ИПС, стандартным механизмаминдексации документов и поиска, а также механизмам поиска иперсонализации на основе прецедентов. Выполнен анализ эффективности работы прототипа ИПС на основепрецедентов для различных схем взаимодействия агентов и установлено,что поиск с использованием взаимодействующих CBR-агентов позволяетснизитьинформационныйшумидаетинтегральныйпоказательэффективности ИП близкий к показателю ИП стандартными средствамиИПС, а также позволяет снизить количество обращений к серверупоисковой машины (индексу), что снижает нагрузку на нее за счетобработки части запросов непосредственно на стороне клиента. На основе вычисленных оценок с использованием метрик качестваранжирования по TOP 100 для трех поисковых машин (Google, Yandex,Bing) и ИПС «STRAY SEARCH» для одного обученного СBR-агента ирабочей группы СBR-агентов сделан вывод, что эффективность работы142ИПС «STRAY SEARCH» на основе прецедентов сопоставима сэффективностью работы таких поисковых машин как Google, Yandex, Bing.143ЗАКЛЮЧЕНИЕ1.

Проведено исследование различных методов и средств интеллектуализации иперсонализации поиска в современных ИПС Интернета и установлено, чтооднойизперспективныхвозможностейинтеллектуализациииперсонализации поиска является использование прецедентного подхода.2. Предложенметодперсонализациипоисканаосновепрецедентов,позволяющий объединить в себе различные подходы к решению даннойзадачи (как явные, так и неявные методы персонализации поиска) и снизитьнагрузку на индекс (БД, сервер) поискового инструмента, а также упроститьрешение проблемы, связанной с обеспечением конфиденциальности данных.3.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.