Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска)

PDF-файл Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска) Технические науки (27045): Диссертация - Аспирантура и докторантураАвтореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска) - PD2019-03-122019-03-12zzyxelСтудИзба

Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска107

Описание файла

Файл "Автореферат" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиЗейн Али НажиИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОЙКЛАСТЕРИЗАЦИИ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ И ИНТЕРНЕТРЕСУРСОВ ДЛЯ ПЕРСОНАЛИЗАЦИИ ПОИСКАСпециальность 05.13.11 – Математическое и программное обеспечениевычислительных машин, комплексов и компьютерных сетейАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква – 2015Работа выполнена на кафедре Вычислительных машин, систем и сетейфедерального государственного бюджетного образовательного учреждениявысшего профессионального образования «Национальный исследовательский университет «МЭИ» (ФГБОУ ВПО «НИУ «МЭИ»)Научный руководитель:кандидат технических наук, доцентМороховец Юрий ЕвгениевичОфициальные оппоненты:Фаязов Хабибулло Файзуллаевичдоктор технических наук,Евразийское патентное ведомство,вице-президент.Фоменков Андрей Вячеславовичкандидат технических наук,ООО «Ренессанс Брокер»,IT-менеджер.Ведущая организация:ООО «Мэйл.Ру», г.

МоскваЗащита состоится 27 марта 2015 года в 16 час. 00 мин. на заседаниидиссертационного совета Д 212.157.01 при ФГБОУ ВПО «НИУ «МЭИ» поадресу: 111250, Москва, ул. Красноказарменная, 13, ауд. М-704.С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «НИУ«МЭИ» и на сайте mpei.ru.Автореферат разослан «____»____________2015 г.Ученый секретарьдиссертационного совета Д 212.157.01кандидат технических наук, доцентФомина М.В.2ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы исследования. Интернет в 21-ом веке являетсянеотъемлемой частью повседневной жизни.

Огромное количество ресурсов исодержащейся в них информации превратило Всемирную Паутину в грандиозное хранилище плохо организованных, неструктурированных данных,имеющих ограниченные возможности целенаправленного поиска.В настоящее время реализовано множество методов повышающих эффективность Интернет-поиска, релевантность данных запросам и предпочтениям пользователей.

Применяемые методы в основном базируются на классификации Интернет-пользователей (ИП) и Интернет-ресурсов (ИР).И. Виттен, К. Гуандонг, Е. Франк успешно применяли ассоциативныеметоды классификации и метод пересечений для таргетирования Интернетрекламы. И.Е. Кураленок, В.В. Гулин, Шаграев А.Г.

и др. предлагают применять методы классификации, основанные на машинном обучении, для сравнительной оценки систем текстового поиска, автоматической фильтрацииспама, агрегации и рубрикации новостей. Реализация этих методов, по мнению их авторов, обеспечивает повышение полноты и точности результатовклассификации при сокращении временных затрат на обработку исходныхтекстов. К сожалению, остается неясным, насколько удачно можно применять указанные методы для классификации ИП и ИР с целью персонализацииИнтернет-поиска?Классические методы кластерного анализа подробно описаны в работах С.А. Айвазяна, В.М. Бухштабера, И.С.

Енюкова, Л.Д. Мешалкина, другихавторов. В информационных источниках можно встретить общие сведения оприменении методов кластеризации для классификации ИП и ИР. Декларируются различные цели применения методов кластерного анализа к Интернет-объектам, однако в подавляющем большинстве случаев детали этих методов и способов их применения не разглашаются, оставаясь коммерческойтайной.

В большинстве работ предполагается, что исследуемые объекты являются статическими, а структура кластеров меняется за счёт появления илиисключения объектов. Несмотря на важные результаты, полученные перечисленными авторами, задача кластеризации таких динамичных объектов,3как ИП и ИР с целью персонализации поиска остается нерешённой.Дальнейшее развитие Интернета связано с необходимостью его приспособления к нуждам ИП и, в частности, за счет персонализации Интернетпоиска. Повышение уровня персонализации поиска, в свою очередь, можетбыть достигнуто за счет разработки перспективных методов классификацииИП и ИР, основанных на кластерном анализе, внедрения этих методов в существующие поисковые системы.Степень разработанности темы.

О персонализации Интернет-поискажаркие дискуссии идут уже почти 20 лет – все заинтересованы в том, чтобырезультаты поиска были как можно более релевантными пользовательскимзапросам. Однако недостаточная научная проработанность проблемы, отсутствие эффективных методов и средств, обеспечивающих персонализациюпоиска информации в Интернете, закрытость большинства практически реализованных решений ведущими компаниями поставщиками Интернет-услугобусловила необходимость исследования теоретических и практических вопросов применения методов кластерного анализа для персонализации поиска.Кластеризация объектов со статическими свойствами повседневноприменяется в основном в аналитической деятельности.

Однако, методы кластеризации динамичных объектов, таких как ИР, недостаточно разработаныи, кроме того, мало кто из исследователей рассматривал идею обобщенногопредставления ИП и ИР, обладающих подобными свойствами с точки зренияих кластеризации.Цель и задачи работы. Целью диссертационной работы является применение методов классического кластерного анализа для классификации ИПи ИР, для персонализации информационного поиска в Интернете.

Для достижения поставленной цели требуется решить следующие основные задачи.1. Проанализировать существующие некластерные методы классификации ИП и ИР. Проанализировать существующие методы кластерного анализа ИП и ИР, выявить их преимущества и недостатки по отношению к некластерным методам классификации.2. Предложить адекватное математическое описание объектов исследования – ИП и ИР, обеспечивающее применение существующих алгоритмов4кластеризации и их компьютерную реализацию.3. Выбрать алгоритм кластеризации ИП и ИР из числа известных методов кластерного анализа, позволяющий управлять результатом с помощьюограниченного набора существенных входных параметров.4.

Определить масштаб влияния информационной динамики Интернетобъектов на результаты их кластерного анализа. Предложить методы устранения динамических факторов при кластеризации ИП и ИР.5. Разработать и применить подход, основанный на оригинальномпринципе обобщения и одновременной кластерной обработки ИП и ИР.6. Разработать программные средства для наблюдения за активностьюИП, сбора данных о ИР, кластеризации ИП и ИР, а также для оценки эффективности предлагаемых методов.7. Оценить эффективность применения предлагаемых методов для персонализации Интернет-поиска, с точки зрения релевантности получаемых ИПданных.8.

Разработать структуру системы персонализации поиска, использующей предлагаемые методы классификации ИП и ИР.Объект и предмет исследования. Объектом исследования являютсяметоды персонализации Интернет-поиска, основанные на изучении и классификации ИП и ИР при помощи кластерного анализа.Предметом исследования являются способы математического описанияИП и ИР, процедуры сбора и обработки информации об этих Интернетобъектах, позволяющие эффективно применять аппарат классического кластерного анализа для целей персонализации Интернет-поиска.Научная новизна диссертации заключается в следующем.1.

Предложены оригинальные методы снижения влияния динамическихкомпонентов DOM-модели ИР на стабильность кластерной структуры: методчисловых коэффициентов усиления и метод трёхтактной кластеризации с обратной связью.2. Дано математическое описание и исследована кластерная структураИП и ИР как результата применения обобщенного способа векторного представления этих объектов – единый словарь терминов, обобщённый характе5ристический вектор и совместная кластеризация.3.

Разработан способ структуризации данных, получаемых из поисковых историй ИП и контента ИР, предложена структура базы данных, хранящей соответствующую информацию.Теоретическая и практическая значимость работы. Задача классификации ИП и ИР достаточно хорошо изучена. В коммерческих целях широко применяются некластерные методы классификации ИП, основанные настатической информации, и ассоциативные методы классификации ИР. Однако эти методы не учитывают интересы ИП, а качество классификации динамичных ИР оставляет желать лучшего.

Существующие методы кластеризации текстов не берут во внимание особенности современных ИР – не учитываются динамические компоненты их DOM-моделей. Следует обратитьвнимание на тот факт, что кластеризация ИП и ИР сейчас проводится раздельно. Предлагаемый в диссертации метод обеспечивает новый подход идает перспективную математическую модель обобщения ИП и ИР, позволяяпредставлять их как единый объект исследований.

Изложенный в работе метод может быть применён не только для персонализации Интернет-поиска,но и для решения широкого круга задач, где имеется взаимодействие автоматизированной системы с множеством подобных субъектов, которых необходимо классифицировать в соответствии с их предпочтениями.В диссертации разработаны и программно реализованы методы, обеспечивающие применение алгоритмов кластерного анализа для персонализации поиска в Интернете. Одна часть программных средств, поддерживающихпредлагаемые методы, реализована на языке C# в среде Microsoft Visual Studio 2010 в виде соответствующего набора инструментов и инфоботов, позволяющих запускать и выполнять задания по получению текстового содержания ИР и сканирования их DOM-структур, а также отслеживать поисковуюактивность ИП.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.