Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска), страница 2

PDF-файл Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска), страница 2 Технические науки (27045): Диссертация - Аспирантура и докторантураАвтореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска) - PD2019-03-122019-03-12zzyxelСтудИзба

Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска108

Описание файла

Файл "Автореферат" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

Другая часть программных средств реализована на языке TSQL в среде Microsoft SQL Server 2012. Этими средствами поддерживаетсявся аналитическая часть проекта, выполняется кластеризация Интернетобъектов. Используя указанные инструменты, эксперт-аналитик на основерезультатов кластерного анализа получает чёткую картину распределения6ИП и ИР по кластерам в зависимости от таких параметров, как продолжительность периода наблюдения, число кластеров, величина коэффициентовусиления и минимальная длина терминов. При достаточно низком (< 40%)показателе коэффициента попадания в целевую группу он (эксперт) можетпринять решение о целесообразности выполнения кластеризации с новымивходными параметрами.

В случае, когда указанный показатель становитсячересчур высоким (> 60%), эксперт может зафиксировать входные параметры и запустить в автоматическом режиме кластеризацию объектов на болеедлительный период. Предложенный подход безусловно требует значительных вычислительных затрат, но при наличии локального дата-центра иликорпоративного грида может дать существенную отдачу, повысив уровеньперсонализации Интернет-поиска. Таким образом, в диссертационной работенаряду с указанными выше методами, предложен целостный подход к ихпрактическому использованию.Методология и методы исследования. В основе диссертационногоисследования лежат методы статистического и кластерного анализа, теорияграфов, web mining и web-технологии.

При проведении исследований и приизложении полученных материалов применяется систематический подход,базирующийся на анализе натурных экспериментальных результатов. На каждом этапе работы, после проведения сравнительного анализа полученныхрезультатов, делаются выводы и выбираются наиболее рациональные подходы для продолжения исследований.Положения, выносимые на защиту.1.

Метод снижения влияния динамических элементов DOM-модели ИР,основанный на применения числовых коэффициентов усиления. Анализ состояния кластерной структуры с помощью показателя степени принадлежности объектов к кластерам.2. Метод трёхтактной кластеризации ИР с обратной связью, основанный на выявлении динамических элементов DOM-модели с последующимисключением их контента из кластерного анализа.3. Математическое описание объектов исследования с применениемобобщенного способа их векторного представления – единый словарь терми7нов, обобщённый характеристический вектор и совместная кластеризация.4.

Способ структуризации данных, определяющий структуру базы данных, хранящей информацию о поисковой активности ИП, содержимом запросов ИП и контенте страниц ИР.Степень достоверности и апробация результатов.Основные результаты диссертационного исследования обсуждались нанаучно-практических конференциях, среди которых: VI International researchand practice conference «European Science and Technology» (Munich, 2013), IVInternational research and practice conference «Science, Technology and HigherEducation» (Westwood, 2014), Международная научно-практической конференция «Инновационное развитие современной науки» (Уфа, 2014) и Международная научно-техническая конференции «Тенденции и инновации современной науки» (Краснодар, 2014).Положения и результаты диссертационной работы использовались впроизводственной деятельности компании ТНС Гэллап Эдфакт при обработке нестандартных рекламных баннеров с последующей кластеризацией динамических компонентов, принадлежащих одному баннеру, но полученных вразные моменты времени, что подтверждается актом о внедрении.ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо введении диссертации обоснована актуальность темы исследований, определены проблема, цель и задачи диссертационной работы, показанынаучная новизна и практическая значимость результатов исследований, представлено краткое содержание разделов диссертации.Первая глава посвящена обзору существующих подходов и методовкак некластерной, так и кластерной классификации объектов.

Эти методышироко используются во многих отраслях, в том числе и в Интернетиндустрии.Дан детальный обзор применения информации о пользователях и ихактивности в социальных сетях для решения задач персонализации поиска.Приведены примеры использования статической пользовательской информации. Продемонстрированы ассоциативный метод и метод пересечений дляподбора товаров в Интернет-магазинах, когда анализируется содержимое то8варных корзин определенного множества покупателей и определяется вероятностная закономерность покупок. Продемонстрирован метод частоты терминов (ТF-метод), широко применяемый для классификации статичных текстов.

Эти некластерные методы могут быть использованы для предварительной сегментации ИП и ИР до их кластеризации.Кластеризация – это автоматическое разбиение элементов некого множества на группы (кластеры) в зависимости от показателей их схожести. Различают иерархическую (дивизивную и агломеративную) и итерационную(метод k-средних, метод Форель и другие) кластеризацию. В наши дни методы кластерного анализа применяются для решения широкого спектра задач вИнтернете. Кластерные методы со сложными алгоритмами оптимизацииприменяются в поисковых системах, Интернет-магазинах, системах анализаконтента сайтов, системах проверки подлинности текстов диссертаций и ещёво многих сферах.Говоря о кластеризации Интернет-объектов, необходимо определитьтакое базовое понятие, как объект кластеризации.

Объект – элементарнаяединица, которая может быть представлена с помощью набора (вектора) числовых характеристик и с которой оперируют алгоритмы кластеризации. Каждому объекту xi из множества X, сопоставляется вектор числовых характеристик zi = (zi,1, …, zi,j, …, zi,n). Кардинальность вектора n определяет размерность пространства характеристик Z. Расстояние (zi, zk) между объектами xiи xk – результат применения выбранной метрики в пространстве характеристик.

В диссертационной работе в качестве метрики пространства Z выбраноевклидово расстояние.Вторая глава посвящена лингвистической обработке запросов ИП итекстов ИР с применением специальных динамических словарей, формируемых в процессе лемматизации терминов.Лингвистический анализ – метод исследования текста, который можетбыть охарактеризован как лингвосмысловой анализ, т.к. позволяет «понимать» текст и извлекать из него необходимую информацию. Существуетмножество подходов к лингвистическому анализу. Среди них можно выделить статистический анализ, анализ признаков, семантический анализ и ком9бинированный подход. В диссертации применяется комбинированный подход, основанный на статистическом методе, методе анализа признаков и особенностей DOM-модели ИР.На рисунке 1 представлены этапы процесса очистки запросов ИП итекстового содержания ИР от первичного «грязного» текста до набора лемм.Результатом выполнения этого процессаявляется формирование статистики лемми наращивание словаря с помощью лингвистическогоэкс-перта.

Так как наэтапевыполнениярассматриваемогопроцесса происходитполный перебор словпоисковогозапросаИП или/и текста ИР,то целесообразноРисунок 1 – Процесс лингвистической обработкизапросов ИП и текстов ИРздесь же проводить подсчёт встречаемости слов в тексте, применяя известные статистические методы (подсчёт число вхождений, TF или другие). Затем, на основании полученной информации, могут быть сформированы характеристические вектора классифицируемых Интернет-объектов и глобальный словарь терминов, с которыми будут дальше работать алгоритмы кластерного анализа.В третьей главе подробно рассматриваются динамические явления(образование новых кластеров, слияние кластеров, расщепление или дробление кластеров, исчезновение кластеров, перемещение центров кластеров) вкластерной структуре и причины их возникновения. С целью снижения влияния динамических факторов на кластеризацию ИП предлагается метод скользящего временного окна, т.е.

в nof(Vu)-мерном пространстве при анализе кла10стерной структуры должны учитываются только объекты, зафиксированныев последнем временном окне ∆tk (здесь и далее Vu – глобальный словарь терминов, используемых ИП). С этой же целью для ИР предлагаются два новыхметода – метод, базирующийся на применении числовых коэффициентовусиления, и метод трёхтактной кластеризации Интернет-ресурсов с фильтрацией, основанной на анализе их DOM-моделей.В любой момент времени можно оценить состояние кластерной структуры с помощью коэффициента принадлежности i-ого объекта к m-ому кластеру с помощью мер сходства или слияния кластеров, мер компактностикластеров и других показателей.

Например, для ИП коэффициент принадлежности bi,m(tk) объекта usriUSR с характеристическим вектором ui(tk) ккластеру Um(tk) из кластерной структуры K(tk) в произвольный момент времени наблюдения tk  T, завершающего временное окно ∆tk, рассчитывается поформуламnof ( K ( t k ))1bi , m (tk )  nof ( K (t ))k (  (ui (tк ), em (tk ))2 2 ((u(t),e(t))l 1i kl k(1) иbm 1i ,m(t k )  1(2),где- nof(K(tk)) – число кластеров в кластерной структуре;-  (ui (tk ), em (tk ))  unof (Vu ( t k ))j 1i, j(tk )  em, j (tk )  – евклидово расстояние меж2ду характеристическим вектором ui(tk) и центром em(tk) m-ого кластера кластерной структуры ИП.Сказанное подразумевает, что каждому пользователю usri USR сопоставлен характеристический (поисковый) вектор ui(tk), имеющий вид:ui(tk) = (ui,1(tk), …, ui,j(tk), …, ui,nof(Vu(t k))(tk)),(3)где- ui,j(tk) – числовая координата, соответствующая j-му поисковому термину глобального словаря Vu(tk).

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.