Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиЗейн Али НажиИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОЙКЛАСТЕРИЗАЦИИ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ И ИНТЕРНЕТРЕСУРСОВ ДЛЯ ПЕРСОНАЛИЗАЦИИ ПОИСКАСпециальность 05.13.11 – Математическое и программное обеспечениевычислительных машин, комплексов и компьютерных сетейАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква – 2015Работа выполнена на кафедре Вычислительных машин, систем и сетейфедерального государственного бюджетного образовательного учреждениявысшего профессионального образования «Национальный исследовательский университет «МЭИ» (ФГБОУ ВПО «НИУ «МЭИ»)Научный руководитель:кандидат технических наук, доцентМороховец Юрий ЕвгениевичОфициальные оппоненты:Фаязов Хабибулло Файзуллаевичдоктор технических наук,Евразийское патентное ведомство,вице-президент.Фоменков Андрей Вячеславовичкандидат технических наук,ООО «Ренессанс Брокер»,IT-менеджер.Ведущая организация:ООО «Мэйл.Ру», г.
МоскваЗащита состоится 27 марта 2015 года в 16 час. 00 мин. на заседаниидиссертационного совета Д 212.157.01 при ФГБОУ ВПО «НИУ «МЭИ» поадресу: 111250, Москва, ул. Красноказарменная, 13, ауд. М-704.С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «НИУ«МЭИ» и на сайте mpei.ru.Автореферат разослан «____»____________2015 г.Ученый секретарьдиссертационного совета Д 212.157.01кандидат технических наук, доцентФомина М.В.2ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы исследования. Интернет в 21-ом веке являетсянеотъемлемой частью повседневной жизни.
Огромное количество ресурсов исодержащейся в них информации превратило Всемирную Паутину в грандиозное хранилище плохо организованных, неструктурированных данных,имеющих ограниченные возможности целенаправленного поиска.В настоящее время реализовано множество методов повышающих эффективность Интернет-поиска, релевантность данных запросам и предпочтениям пользователей.
Применяемые методы в основном базируются на классификации Интернет-пользователей (ИП) и Интернет-ресурсов (ИР).И. Виттен, К. Гуандонг, Е. Франк успешно применяли ассоциативныеметоды классификации и метод пересечений для таргетирования Интернетрекламы. И.Е. Кураленок, В.В. Гулин, Шаграев А.Г.
и др. предлагают применять методы классификации, основанные на машинном обучении, для сравнительной оценки систем текстового поиска, автоматической фильтрацииспама, агрегации и рубрикации новостей. Реализация этих методов, по мнению их авторов, обеспечивает повышение полноты и точности результатовклассификации при сокращении временных затрат на обработку исходныхтекстов. К сожалению, остается неясным, насколько удачно можно применять указанные методы для классификации ИП и ИР с целью персонализацииИнтернет-поиска?Классические методы кластерного анализа подробно описаны в работах С.А. Айвазяна, В.М. Бухштабера, И.С.
Енюкова, Л.Д. Мешалкина, другихавторов. В информационных источниках можно встретить общие сведения оприменении методов кластеризации для классификации ИП и ИР. Декларируются различные цели применения методов кластерного анализа к Интернет-объектам, однако в подавляющем большинстве случаев детали этих методов и способов их применения не разглашаются, оставаясь коммерческойтайной.
В большинстве работ предполагается, что исследуемые объекты являются статическими, а структура кластеров меняется за счёт появления илиисключения объектов. Несмотря на важные результаты, полученные перечисленными авторами, задача кластеризации таких динамичных объектов,3как ИП и ИР с целью персонализации поиска остается нерешённой.Дальнейшее развитие Интернета связано с необходимостью его приспособления к нуждам ИП и, в частности, за счет персонализации Интернетпоиска. Повышение уровня персонализации поиска, в свою очередь, можетбыть достигнуто за счет разработки перспективных методов классификацииИП и ИР, основанных на кластерном анализе, внедрения этих методов в существующие поисковые системы.Степень разработанности темы.
О персонализации Интернет-поискажаркие дискуссии идут уже почти 20 лет – все заинтересованы в том, чтобырезультаты поиска были как можно более релевантными пользовательскимзапросам. Однако недостаточная научная проработанность проблемы, отсутствие эффективных методов и средств, обеспечивающих персонализациюпоиска информации в Интернете, закрытость большинства практически реализованных решений ведущими компаниями поставщиками Интернет-услугобусловила необходимость исследования теоретических и практических вопросов применения методов кластерного анализа для персонализации поиска.Кластеризация объектов со статическими свойствами повседневноприменяется в основном в аналитической деятельности.
Однако, методы кластеризации динамичных объектов, таких как ИР, недостаточно разработаныи, кроме того, мало кто из исследователей рассматривал идею обобщенногопредставления ИП и ИР, обладающих подобными свойствами с точки зренияих кластеризации.Цель и задачи работы. Целью диссертационной работы является применение методов классического кластерного анализа для классификации ИПи ИР, для персонализации информационного поиска в Интернете.
Для достижения поставленной цели требуется решить следующие основные задачи.1. Проанализировать существующие некластерные методы классификации ИП и ИР. Проанализировать существующие методы кластерного анализа ИП и ИР, выявить их преимущества и недостатки по отношению к некластерным методам классификации.2. Предложить адекватное математическое описание объектов исследования – ИП и ИР, обеспечивающее применение существующих алгоритмов4кластеризации и их компьютерную реализацию.3. Выбрать алгоритм кластеризации ИП и ИР из числа известных методов кластерного анализа, позволяющий управлять результатом с помощьюограниченного набора существенных входных параметров.4.
Определить масштаб влияния информационной динамики Интернетобъектов на результаты их кластерного анализа. Предложить методы устранения динамических факторов при кластеризации ИП и ИР.5. Разработать и применить подход, основанный на оригинальномпринципе обобщения и одновременной кластерной обработки ИП и ИР.6. Разработать программные средства для наблюдения за активностьюИП, сбора данных о ИР, кластеризации ИП и ИР, а также для оценки эффективности предлагаемых методов.7. Оценить эффективность применения предлагаемых методов для персонализации Интернет-поиска, с точки зрения релевантности получаемых ИПданных.8.
Разработать структуру системы персонализации поиска, использующей предлагаемые методы классификации ИП и ИР.Объект и предмет исследования. Объектом исследования являютсяметоды персонализации Интернет-поиска, основанные на изучении и классификации ИП и ИР при помощи кластерного анализа.Предметом исследования являются способы математического описанияИП и ИР, процедуры сбора и обработки информации об этих Интернетобъектах, позволяющие эффективно применять аппарат классического кластерного анализа для целей персонализации Интернет-поиска.Научная новизна диссертации заключается в следующем.1.
Предложены оригинальные методы снижения влияния динамическихкомпонентов DOM-модели ИР на стабильность кластерной структуры: методчисловых коэффициентов усиления и метод трёхтактной кластеризации с обратной связью.2. Дано математическое описание и исследована кластерная структураИП и ИР как результата применения обобщенного способа векторного представления этих объектов – единый словарь терминов, обобщённый характе5ристический вектор и совместная кластеризация.3.
Разработан способ структуризации данных, получаемых из поисковых историй ИП и контента ИР, предложена структура базы данных, хранящей соответствующую информацию.Теоретическая и практическая значимость работы. Задача классификации ИП и ИР достаточно хорошо изучена. В коммерческих целях широко применяются некластерные методы классификации ИП, основанные настатической информации, и ассоциативные методы классификации ИР. Однако эти методы не учитывают интересы ИП, а качество классификации динамичных ИР оставляет желать лучшего.
Существующие методы кластеризации текстов не берут во внимание особенности современных ИР – не учитываются динамические компоненты их DOM-моделей. Следует обратитьвнимание на тот факт, что кластеризация ИП и ИР сейчас проводится раздельно. Предлагаемый в диссертации метод обеспечивает новый подход идает перспективную математическую модель обобщения ИП и ИР, позволяяпредставлять их как единый объект исследований.
Изложенный в работе метод может быть применён не только для персонализации Интернет-поиска,но и для решения широкого круга задач, где имеется взаимодействие автоматизированной системы с множеством подобных субъектов, которых необходимо классифицировать в соответствии с их предпочтениями.В диссертации разработаны и программно реализованы методы, обеспечивающие применение алгоритмов кластерного анализа для персонализации поиска в Интернете. Одна часть программных средств, поддерживающихпредлагаемые методы, реализована на языке C# в среде Microsoft Visual Studio 2010 в виде соответствующего набора инструментов и инфоботов, позволяющих запускать и выполнять задания по получению текстового содержания ИР и сканирования их DOM-структур, а также отслеживать поисковуюактивность ИП.