Диссертация (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска), страница 4
Описание файла
Файл "Диссертация" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Для достижения стабильности кластерной структуры и устранениядинамического эффекта, разработан метод наблюдения за ИП, основанный наприменения временного окна. С этой же целью для наблюдения за ИР разработанметод анализа содержания (сканирования) DOM-модели ресурса с последующимприменением числовых коэффициентов усиления.3.
С целью выявления и фильтрации динамических компонентов DOMмодели предложена трёхтактная схема кластеризации ИР с обратной связью.Реализация схемы позволяет превращать динамичные ИР в статические ИР, иприменять к последним стандартные алгоритмы кластерного анализа.4. Предложено решение задачи формирования характеристических векторовИПиИР,числовыесоответствующемкоординатылексикографическомукоторых,порядкурасположеныследованиявпорядке,терминомв16глобальномсловаресистемы.Переходотвербальногокчисловомупредставлению координат происходит за счет позиционного кодированиятерминов и подсчёта числа их вхождений в текст поисковых запросов илитекстовый контент статических компонентов DOM-модели ИР.5.
Введено понятие обобщённого Интернет-объекта, применение которогопозволяет одновременно проводить кластерный анализ как ИП, так и ИР.Унификацияобъектовнаблюденияделаеткластерныйанализболеетранспарентным и глобальным. Информация об ИП, в зависимости от ихинтересов, может храниться вместе с информационно-релевантными ей даннымиоб ИР.6.
Разработан набор программных модулей (программная система) дляслежения за активностью ИП и получения текстового содержания ИР с учётом ихDOM-модели.7. В среде MS SQL Server 2012 разработаны специальные хранимыепроцедуры, выполняющие все необходимые расчёты – от формирования словарейтерминов до конечного распределения объектов по кластерам.Публикации в журналах ВАК.1.
Зейн А.Н., Мороховец Ю.Е. Персонализация поиска: статическая илидинамическая кластеризация? // Журнал «Вестник МЭИ». – М.: ИздательствоМЭИ. – 2014. – № 2. – С. 76-81.2. Мороховец Ю.Е., Зейн А.Н. Трехтактная кластеризация динамичныхИнтернет-ресурсов с применением DOM-моделей. // Международный журнал«Программные продукты и системы».
– Тверь: НИИ Центрпрограммсистем. –2014. – № 3. – С. 58-63. URL: http://swsys.ru/index.php?page=article&id=3861(01.12.2014 г.).Другие публикации.1. Зейн А.Н. Статические и динамические явления в кластерной структуреИнтернет-объектов. // Сборник научных трудов «Новый взгляд.
Международныйнаучный вестник». Выпуск 2. – Новосибирск: ЦРНС. – 2013. – С. 51-60.2. Zein A. N. Clusterization of web-sites using numeric coefficients based on17DOM-model. // Materials of the VI international research and practice conference«European Science and Technology». Vol. 2. – Munich: Vela Verlag Waldkraiburg,2013. – PP.
372-375.3. Зейн А.Н. Динамическая активность Интернет-ресурсов в кластернойструктуре.//Сборникстатей«Международнойнаучно-практическойконференции». – Уфа: РИЦ БашГУ. – 2014. – С. 123-127.4. Зейн А.Н. Интернет-ресурсы: новый подход для оптимизации результатовпоиска. // Материалы XII международной научно-технической конференции«Тенденции и инновации современной науки». – Краснодар: Априори.
– 2014. –С. 54.5.ЗейнА.Н.Персонализацияпоиска:кластеризацияИнтернет-пользователей и Интернет-ресурсов. // Электронный журнал «Вычислительныесети: теория и практика». – М.: НИУ МЭИ. – 2014. – №1. URL: http://networkjournal.mpei.ac.ru/cgi-bin/main.pl?l=ru&n=24&pa=6&ar=1 (01.12.2014 г.).Объём и структура диссертации.Общий объём диссертации – 303 страницы, из которых 181 страницаосновного текста.
Диссертация содержит 76 рисунков, 27 таблиц и состоит извведения, пяти глав, заключения, списка литературы и приложений.Первая глава посвящена обзору существующих подходов и методов какнекластерной, так и кластерной классификации ИП и ИР. Эти методы широкоприменяются во многих отраслях, в том числе и в Интернет-индустрии.Вторая глава посвящена лингвистической обработки терминов из запросовИнтернет-пользователейитекстовИнтернет-ресурсовсприменениемспециальных динамических словарей, формируемых в процессе лемматизациитерминов.В третьей главе предлагаются два новых метода, снижающих влияниединамических компонентов на стабильность кластерной структуры – метод,базирующийся на применении числовых коэффициентов усиления, и методтрёхтактной кластеризации Интернет-ресурсов с фильтрацией,анализе DOM-моделей.основанной на18В четвертой главе предлагается подход к обобщению Интернет-объектов набазе вводимого здесь же понятия обобщённого характеристического вектора.Результаты интерпретируются с использованием графовой модели.
Применениеобобщенияделаетассоциированные сИнтернет-ресурсыоднимиболеепользователями,социальными:могутпредлагатьсяресурсы,другимпользователям, относящимся к одному и тому же кластеру.Пятаяглава посвященаразработкеструктурыпоисковойсистемы,использующей предлагаемые в диссертации методы классификации ИП и ИР ипрограммной реализации предложенных методов.В заключении приводится перечень основных результатов работы,показываются направления её развития.191.
АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАССИФИКАЦИИИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ И ИНТЕРНЕТ-РЕСУРСОВ,ПРИМЕНЯЕМЫХ ДЛЯ ПЕРСОНАЛИЗАЦИИ ПОИСКАПри попытке получения знаний из web-а мы не можем ориентироваться настрогие структуры и компоненты, так как в Интернете присутствует огромноеколичество распределённой, гетерогенной, неструктурированной и динамическиизменяющейся информации. Несмотря на это, ИР научились быть ближе к ИП,перестали быть изолированными от них.
Как только ИП заходит на ИР, он сразуоставляет свой след: становятся известны его местоположение (география),персональные данные (пол, возраст и т.д.), его история поиска. С учетом этого, впервой главе диссертации дан обзор существующих подходов и методовклассификации ИП и ИР, которые широко применяются для персонализациипоиска в Интернете.1.1.
Примеры использования информации о пользователях и ихактивности в социальных сетях для решения задач персонализацииВ настоящее время персональная информация ИП представляет огромныйинтерес, как для Интернет-площадок, так и для рекламодателей. Дело в том, чтолюбой ИР заинтересован в обработке личной информации ИП, посещавших егостраницы. Это важно для статистической обработки посещаемости с цельюпродажи рекламы. Можно чётко разделить мужские и женские сайты, спортивныеили новостные сайты. Для примера, возьмём один из крупных Интернет-порталовРоссии – mail.ru. По данным исследовательской компании TNS Россия,количество пользователей за апрель 2012 года по всему порталу mail.ru составилопримерно 47 миллионов российских пользователей [82], а на главной страницеmail.ru их было примерно 12 миллионов за тот же период.Начнёмсиспользованияперсональнойинформациипользователякомпанией mail.ru для персонализации контента.
Работа пользователя начинается20с регистрации почтового ящика (рисунок 1.1) на главной регистрационнойстраницы сайта (http://e.mail.ru/cgi-bin/signup). На этой странице пользовательоставляет ценнейшую информацию о себе: дату рождения, пол, город и странупроживания.Рисунок 1.1 – Регистрационная форма для создания почтового ящика mail.ruПосле того, как ИП оставит персональную информацию при регистрациинового почтового ящика (рисунок 1.1), эта информация становится доступнойбольшому числу специалистов (программистам, маркетологам и т.д). С этогомоментаначинаютработатьразличныеалгоритмыдляперсонализацииинформационного Интернет-потока с портала mail.ru. Достаточно понаблюдать забаннерной рекламой на главной странице mail.ru после авторизации пользователя.Итак,сразупослезаполнениярегистрационнойформыперсональнойинформацией, ИР начинает её использовать для подбора рекламы.
Например,пользователю-мужчине старше восемнадцати лет ИР показывает рекламу пивнойпродукции (рисунок 1.2 и 1.3. Скриншоты были получены 7 мая 2012 года, т.е. допоявления изменений к требованиям Федерального закона о рекламе, вступившихв силу с 1 сентября 2012 г.)21Рисунок 1.2 – Пиво «Старый мельник» таргетированная баннерная рекламаРисунок 1.3 – Пиво «Клинское» таргетированная баннерная рекламаНа рисунках 1.2 и 1.3 можно обратить внимание на персонализациюрекламы пользователя, который заполнил регистрационную форму: датарождения 29 июня 1984 г. Также был подобран соответствующий гороскоп.
Еслиочистить файлы cookie и зайти повторно на тот же ИР без авторизации, тоотсутствие персонализации ИР сразу становится заметно (рисунок 1.4).22Рисунок 1.4 – Главная страница mail.ru для неавторизованного пользователяПриведённый пример показывает один из подходов автоматическойклассификации авторизованных пользователей для персонализации контентаресурса. Алкогольная продукция (в том числе и пиво), а также табачные изделияне будут показываться несовершеннолетним.
Кроме рекламы, можно обратитьвнимание на гороскопы, которые чётко соответствуют личной информации ИП.На рисунках 1.2 и 1.3 автоматически проставляется гороскоп, в соответствии сдатой рождения авторизованного ИП (29 июня – знак зодиака Рак). Длянеавторизованного пользователя (рисунок 1.4) гороскопическая информациявыводится случайным образом.Если остановиться на представленном подходе к персонализации контента,то можно заметить, что применяемый алгоритм достаточно примитивен –персональная информация ИП используется лишь для таргетирования Интернетрекламы и составления гороскопов.Человек испокон веков жил в социальной среде и поэтому по своемуповедениюявляетсясоциальнозависимымсубъектом.Егоактивностьраспространялась на семью, друзей и соратников, работу и другие жизненныесферы.