Диссертация (Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах), страница 19
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах". PDF-файл из архива "Методы и программные средства поиска информации на основе прецедентов в интеллектуальных поисковых системах", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 19 страницы из PDF
28):Рез = {1,2,6,10,13,28,30,31,33,42,44,45,53,72,74,78,79,80,81,83,84,85}Рис. 28. Список результатов, выданных по запросу пользователя1334.5.2. Анализ эффективности разработанного прототипа ИПС наоснове прецедентов4.5.2.1. Оценкаинтегральногоинформационного поиска ИПСпоказателяэффективностиЭффективность информационного поиска документов, обеспечиваемаяИПС, оценивается по двум показателям:kп – коэффициент информационной полноты;kш – коэффициент информационного шума.Коэффициенты kп и kш принимают значения в интервале от 0 до 1 (рис. 29).В некоторых источниках эти коэффициенты выражают в процентах.Введем следующие обозначения:D – множество документов винформационном хранилище, di D – i-й документ, Dj D – подмножестводокументов. В данном контексте под документом будем понимать, каксобственно текстовый или гипертекстовый документ, так и отдельную запись вБД.Пусть ИПС предъявлен i-й запрос.
ИПС содержит множество документовDi, релевантных этому запросу. В результате поиска будет получено множествоDi*.Определим коэффициенты полноты и шума:П =| ∩∗ |,| |Ш =|∗ \ ||∗ |.134Рис. 29. Смысл коэффициентов полноты и шумаЭффективностьинформационногопоискаЕ1выражаетсячерезкоэффициенты Ш и П , что позволяет рассматривать ее в качествеинтегрального показателя эффективности информационного поиска ИПС.В литературе для функции Е1(Ш , П ) вместо kш принято использоватьобратный ему показатель – коэффициент точности Т .Т = 1 − Ш =| ∩∗ ||0 |.Таким образом, запишем данную функцию в виде:1 =2Т ПТ +П.Оценка эффективности работы ИПС на основе прецедентов выполняласьна наборе из различных запросов (15 запросов для формирования БП CBRагентов и 5 тестовых запросов, приведенных в приложении 2) к ИПС, в БДкоторойбылопроиндексированопоисковымроботом742документа.Первоначальный список URL адресов для поискового робота был сформированна основе списка TOP 100 результатов, выданных тремя поисковыми машинами(Google, Yandex, Bing) по запросу «Среда разработки Visual Studio .NET и языкC#».135В таблице 1 и на рис.
30-32 приведены результаты вычисления показателейэффективности информационного поиска для стандартной ИПС и ИПС на основепополняемой БП одного CBR-агента.Таблица 1. Значения показателей эффективности для стандартной ИПС иИПС1 прецедентв БП CBR-агента2 прецедентав БП CBR-агента3 прецедентав БП CBR-агента4 прецедентав БП CBR-агента5 прецедентовв БП CBR-агента6 прецедентовв БП CBR-агента7 прецедентовв БП CBR-агента8 прецедентовв БП CBR-агента9 прецедентовв БП CBR-агента10 прецедентовв БП CBR-агента11 прецедентовв БП CBR-агента12 прецедентовв БП CBR-агента13 прецедентовв БП CBR-агента14 прецедентовв БП CBR-агента15 прецедентовв БП CBR-агентаИПС на основе пополняемой БП одного CBR-агентаkП0.680.370.390.400.430.470.500.520.540.560.590.600.610.630.640.66kШ0.330.170.170.180.190.210.220.230.230.240.250.250.250.260.270.290.700.510.520.530.550.570.690.600.600.610.630.630.640.650.650.67E1ПОЛНОТА ИНФОРМАЦИОННОГО ПОИСКА10.90.80.7kП0.60.50.40.30.20.101234567891011121314Количество прецедентов в БПИПС на основе CBRИПСРис.
30. Значения kП для ИПС «STRAY SEARCH» с использованиемCBR-агентов и без использования CBR-агентов15136ИНФОРМАЦИОННАЯ ТОЧНОСТЬ10.90.80.7kТ0.60.50.40.30.20.10123456789101112131415Количество прецедентов в БПИПС на основе CBRИПСРис. 31. Значения kТ для ИПС «STRAY SEARCH» с использованиемCBR-агентов и без использования CBR-агентовИНТЕГРАЛЬНЫЕ ПОКАЗАТЕЛИ10.90.80.7Е10.60.50.40.30.20.1012345678910111213Количество прецедентов в БПИПС на основе CBRИПСРис.
32. Значения Е1 для ИПС «STRAY SEARCH» с использованием1415137CBR-агентов и без использования CBR-агентовИз графиков видно, что поиск с использованием CBR-агента, которыйнакапливает опыт (информацию о пользовательских запросах), позволяетснизить информационный шум, но интегральные показатели отличаются нестоль значительно, так как стандартные механизмы поиска обеспечиваютбольшее значение коэффициента полноты.Следует отметить, что применение CBR механизмов позволяет снизитьколичество обращений к серверу поисковой машины (индексу), что снижаетнагрузку на поисковую машину, так как часть запросов может обрабатыватьсянепосредственно на стороне клиента, а также данный подход позволяет вопределённой степени решить вопрос с конфиденциальностью данных.Использование предложенной мультиагентной архитектуры для ИПС наоснове CBR предполагает, что результат ответа на запрос может быть получен врезультате взаимодействия CBR-агентов.Была рассмотрена работа ИПС на основе CBR для рабочей группы из 5CBR-агентов, БП которых содержат по пять прецедентов (пользовательскихзапросов) из 15 запросов, использованных в предыдущем примере (рис.
33).138Рис. 33. БП пяти CBR-агентов из одной рабочей группыВтаблице2приведенызначенияпоказателейэффективностиинформационного поиска для пяти CBR-агентов по отдельности и всей рабочейгруппы.Таблица 2. Значения показателей эффективности информационного поиска длястандартной ИПС и ИПС с рабочей группы из 5 CBR-агентовИПСCBR-агент1CBR-агент2CBR-агент3CBR-агент4CBR-агент5WorkgroupkП0.680.580.630.620.530.550.67kШ0.330.700.260.600.290.610.280.580.220.630.200.630.310.68E1При ответе на новый запрос CBR-агент может не получить результата, тогданеобходимо обращаться к индексу ИПС или воспользоваться мультиагентнойИПС на основе CBR, то есть CBR-агенты из рабочей группы пытаются найтиответ на исходный запрос и результаты поиска всех CBR-агентов должны бытьобъединены в один результирующий список.4.5.2.2.
Оценка эффективности работы ИПС «STRAY SEARCH» сиспользованием метрик качества ранжированияСуществует несколько метрик, по которым оценивают и сравниваюткачество работы алгоритмов ранжирования на выборке с асессорными оценками.Часто параметры ранжирующей модели стремятся подогнать так, чтобымаксимизировать значение одной из этих метрик.Примеры метрик: DCG и NDCG; Точность@n, NDCG@n (@n означает, что значение метрики считаетсятолько по n лучшим документам);139— разработка компании Яндекс.DCG — discounted cumulative gain или приведенная суммарнаяэффективность релевантности рассчитывается по следующей формуле:2 − 1 = ∑,2 ( + 1)=1где i-порядковый номер результата, а rel — степень соответствия запросу.В работе значение DCG вычисляется по указанной выше формуле с учетомсписка ТОП 100 (приложение 2), оценивая релевантность rel от 1 до 4.
«4» –высокая релевантность, если документ оказался во всех выданных в ТОП 100результатах для четырёх поисковых машин (Google, Yandex, Bing, CBR). «3» –документ оказался в ТОП 100 результатов, выданных тремя поисковымимашинами, «2» – документ оказался в ТОП 100 результатов, выданных двумя изчетырех поисковыми машинами и самая низкая релевантность «1» – документоказался в ТОП 100 результатов, только одной поисковой машины.На сегодняшний день в теоретическом анализе ранжирования документовчаще всего используется метрика NDCG (Normalized Discounted CumulativeGain).
NDCG – метрика качества ранжирования, вычисляемая по спискудокументам с оценкой релевантности. Для каждого запроса учитывается idпользователя, список слов в запросе, TOP 100 позиций из полученныхрезультатов, номер позиции, которую выбрал пользователь.Нормируем результат, разделив реальный DCG на идеальный: =где IDCG — значение DCG, если ранжировать документы по убываниюассессорских оценок релевантности.Рассмотрим расчет показателей ранжирования для сравнения работы ИПС«STRAY SEARCH» с поисковыми машинами (Google, Yandex, Bing). В качестветес140Разработка .NET приложений}.На рис. 34 приведены результаты вычисления оценок с использованиемметрик качества ранжирования по TOP 100 для трех поисковых машин (Google,Yandex, Bing) и ИПС «STRAY SEARCH» для одного обученного СBR-агента ирабочей группы СBR-агентов.Рис.
34. Результаты вычисления оценок с использованием метрик качестваранжированияВтаблице3приведеныусредненныезначениядляоценоксиспользованием метрик качества ранжирования.Таблица 3. Значения оценок с использованием метрик качества ранжированияDCGIDCGNDCGGoogle60.6072.740.833Yandex59.6672.980.820Bing56.9472.460.790CBR57.7371.720.804CBR Group64.0178.310.811Вычисленные показатели для ИПС «STRAY SEARCH» при выполнениитестовых запросов по выбранной тематике оказались незначительно нижеаналогичных показателей для поисковых машин Google и Yandex и вышепоказателей для поисковых машин Bing.
На основе полученных оценок можносделать вывод, что эффективность работы ИПС на основе прецедентов (для141одного обученного CBR-агента и группы взаимодействующих CBR-агентов)сопоставима с эффективностью работы таких поисковых машин как Google,Yandex, Bing.4.6. Выводы по главе 4 Выполнена программная реализация прототипа ИПС «STRAY SEARCH»на базе разработанной мультиагентной архитектуры ИПС на основепрецедентов с использованием технологии .NET для построенияраспределенных информационных систем ASP.NET, ADO.NET EntityFramework и Windows Communication Foundation (WCF). Приведено описание основных компонентов прототипа ИПС «STRAYSEARCH», обеспечивающих удобный доступ через web-интерфейс кдокументам, содержащимся в индексе ИПС, стандартным механизмаминдексации документов и поиска, а также механизмам поиска иперсонализации на основе прецедентов. Выполнен анализ эффективности работы прототипа ИПС на основепрецедентов для различных схем взаимодействия агентов и установлено,что поиск с использованием взаимодействующих CBR-агентов позволяетснизитьинформационныйшумидаетинтегральныйпоказательэффективности ИП близкий к показателю ИП стандартными средствамиИПС, а также позволяет снизить количество обращений к серверупоисковой машины (индексу), что снижает нагрузку на нее за счетобработки части запросов непосредственно на стороне клиента. На основе вычисленных оценок с использованием метрик качестваранжирования по TOP 100 для трех поисковых машин (Google, Yandex,Bing) и ИПС «STRAY SEARCH» для одного обученного СBR-агента ирабочей группы СBR-агентов сделан вывод, что эффективность работы142ИПС «STRAY SEARCH» на основе прецедентов сопоставима сэффективностью работы таких поисковых машин как Google, Yandex, Bing.143ЗАКЛЮЧЕНИЕ1.
Проведено исследование различных методов и средств интеллектуализации иперсонализации поиска в современных ИПС Интернета и установлено, чтооднойизперспективныхвозможностейинтеллектуализациииперсонализации поиска является использование прецедентного подхода.2. Предложенметодперсонализациипоисканаосновепрецедентов,позволяющий объединить в себе различные подходы к решению даннойзадачи (как явные, так и неявные методы персонализации поиска) и снизитьнагрузку на индекс (БД, сервер) поискового инструмента, а также упроститьрешение проблемы, связанной с обеспечением конфиденциальности данных.3.