Автореферат (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска), страница 2
Описание файла
Файл "Автореферат" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Другая часть программных средств реализована на языке TSQL в среде Microsoft SQL Server 2012. Этими средствами поддерживаетсявся аналитическая часть проекта, выполняется кластеризация Интернетобъектов. Используя указанные инструменты, эксперт-аналитик на основерезультатов кластерного анализа получает чёткую картину распределения6ИП и ИР по кластерам в зависимости от таких параметров, как продолжительность периода наблюдения, число кластеров, величина коэффициентовусиления и минимальная длина терминов. При достаточно низком (< 40%)показателе коэффициента попадания в целевую группу он (эксперт) можетпринять решение о целесообразности выполнения кластеризации с новымивходными параметрами.
В случае, когда указанный показатель становитсячересчур высоким (> 60%), эксперт может зафиксировать входные параметры и запустить в автоматическом режиме кластеризацию объектов на болеедлительный период. Предложенный подход безусловно требует значительных вычислительных затрат, но при наличии локального дата-центра иликорпоративного грида может дать существенную отдачу, повысив уровеньперсонализации Интернет-поиска. Таким образом, в диссертационной работенаряду с указанными выше методами, предложен целостный подход к ихпрактическому использованию.Методология и методы исследования. В основе диссертационногоисследования лежат методы статистического и кластерного анализа, теорияграфов, web mining и web-технологии.
При проведении исследований и приизложении полученных материалов применяется систематический подход,базирующийся на анализе натурных экспериментальных результатов. На каждом этапе работы, после проведения сравнительного анализа полученныхрезультатов, делаются выводы и выбираются наиболее рациональные подходы для продолжения исследований.Положения, выносимые на защиту.1.
Метод снижения влияния динамических элементов DOM-модели ИР,основанный на применения числовых коэффициентов усиления. Анализ состояния кластерной структуры с помощью показателя степени принадлежности объектов к кластерам.2. Метод трёхтактной кластеризации ИР с обратной связью, основанный на выявлении динамических элементов DOM-модели с последующимисключением их контента из кластерного анализа.3. Математическое описание объектов исследования с применениемобобщенного способа их векторного представления – единый словарь терми7нов, обобщённый характеристический вектор и совместная кластеризация.4.
Способ структуризации данных, определяющий структуру базы данных, хранящей информацию о поисковой активности ИП, содержимом запросов ИП и контенте страниц ИР.Степень достоверности и апробация результатов.Основные результаты диссертационного исследования обсуждались нанаучно-практических конференциях, среди которых: VI International researchand practice conference «European Science and Technology» (Munich, 2013), IVInternational research and practice conference «Science, Technology and HigherEducation» (Westwood, 2014), Международная научно-практической конференция «Инновационное развитие современной науки» (Уфа, 2014) и Международная научно-техническая конференции «Тенденции и инновации современной науки» (Краснодар, 2014).Положения и результаты диссертационной работы использовались впроизводственной деятельности компании ТНС Гэллап Эдфакт при обработке нестандартных рекламных баннеров с последующей кластеризацией динамических компонентов, принадлежащих одному баннеру, но полученных вразные моменты времени, что подтверждается актом о внедрении.ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо введении диссертации обоснована актуальность темы исследований, определены проблема, цель и задачи диссертационной работы, показанынаучная новизна и практическая значимость результатов исследований, представлено краткое содержание разделов диссертации.Первая глава посвящена обзору существующих подходов и методовкак некластерной, так и кластерной классификации объектов.
Эти методышироко используются во многих отраслях, в том числе и в Интернетиндустрии.Дан детальный обзор применения информации о пользователях и ихактивности в социальных сетях для решения задач персонализации поиска.Приведены примеры использования статической пользовательской информации. Продемонстрированы ассоциативный метод и метод пересечений дляподбора товаров в Интернет-магазинах, когда анализируется содержимое то8варных корзин определенного множества покупателей и определяется вероятностная закономерность покупок. Продемонстрирован метод частоты терминов (ТF-метод), широко применяемый для классификации статичных текстов.
Эти некластерные методы могут быть использованы для предварительной сегментации ИП и ИР до их кластеризации.Кластеризация – это автоматическое разбиение элементов некого множества на группы (кластеры) в зависимости от показателей их схожести. Различают иерархическую (дивизивную и агломеративную) и итерационную(метод k-средних, метод Форель и другие) кластеризацию. В наши дни методы кластерного анализа применяются для решения широкого спектра задач вИнтернете. Кластерные методы со сложными алгоритмами оптимизацииприменяются в поисковых системах, Интернет-магазинах, системах анализаконтента сайтов, системах проверки подлинности текстов диссертаций и ещёво многих сферах.Говоря о кластеризации Интернет-объектов, необходимо определитьтакое базовое понятие, как объект кластеризации.
Объект – элементарнаяединица, которая может быть представлена с помощью набора (вектора) числовых характеристик и с которой оперируют алгоритмы кластеризации. Каждому объекту xi из множества X, сопоставляется вектор числовых характеристик zi = (zi,1, …, zi,j, …, zi,n). Кардинальность вектора n определяет размерность пространства характеристик Z. Расстояние (zi, zk) между объектами xiи xk – результат применения выбранной метрики в пространстве характеристик.
В диссертационной работе в качестве метрики пространства Z выбраноевклидово расстояние.Вторая глава посвящена лингвистической обработке запросов ИП итекстов ИР с применением специальных динамических словарей, формируемых в процессе лемматизации терминов.Лингвистический анализ – метод исследования текста, который можетбыть охарактеризован как лингвосмысловой анализ, т.к. позволяет «понимать» текст и извлекать из него необходимую информацию. Существуетмножество подходов к лингвистическому анализу. Среди них можно выделить статистический анализ, анализ признаков, семантический анализ и ком9бинированный подход. В диссертации применяется комбинированный подход, основанный на статистическом методе, методе анализа признаков и особенностей DOM-модели ИР.На рисунке 1 представлены этапы процесса очистки запросов ИП итекстового содержания ИР от первичного «грязного» текста до набора лемм.Результатом выполнения этого процессаявляется формирование статистики лемми наращивание словаря с помощью лингвистическогоэкс-перта.
Так как наэтапевыполнениярассматриваемогопроцесса происходитполный перебор словпоисковогозапросаИП или/и текста ИР,то целесообразноРисунок 1 – Процесс лингвистической обработкизапросов ИП и текстов ИРздесь же проводить подсчёт встречаемости слов в тексте, применяя известные статистические методы (подсчёт число вхождений, TF или другие). Затем, на основании полученной информации, могут быть сформированы характеристические вектора классифицируемых Интернет-объектов и глобальный словарь терминов, с которыми будут дальше работать алгоритмы кластерного анализа.В третьей главе подробно рассматриваются динамические явления(образование новых кластеров, слияние кластеров, расщепление или дробление кластеров, исчезновение кластеров, перемещение центров кластеров) вкластерной структуре и причины их возникновения. С целью снижения влияния динамических факторов на кластеризацию ИП предлагается метод скользящего временного окна, т.е.
в nof(Vu)-мерном пространстве при анализе кла10стерной структуры должны учитываются только объекты, зафиксированныев последнем временном окне ∆tk (здесь и далее Vu – глобальный словарь терминов, используемых ИП). С этой же целью для ИР предлагаются два новыхметода – метод, базирующийся на применении числовых коэффициентовусиления, и метод трёхтактной кластеризации Интернет-ресурсов с фильтрацией, основанной на анализе их DOM-моделей.В любой момент времени можно оценить состояние кластерной структуры с помощью коэффициента принадлежности i-ого объекта к m-ому кластеру с помощью мер сходства или слияния кластеров, мер компактностикластеров и других показателей.
Например, для ИП коэффициент принадлежности bi,m(tk) объекта usriUSR с характеристическим вектором ui(tk) ккластеру Um(tk) из кластерной структуры K(tk) в произвольный момент времени наблюдения tk T, завершающего временное окно ∆tk, рассчитывается поформуламnof ( K ( t k ))1bi , m (tk ) nof ( K (t ))k ( (ui (tк ), em (tk ))2 2 ((u(t),e(t))l 1i kl k(1) иbm 1i ,m(t k ) 1(2),где- nof(K(tk)) – число кластеров в кластерной структуре;- (ui (tk ), em (tk )) unof (Vu ( t k ))j 1i, j(tk ) em, j (tk ) – евклидово расстояние меж2ду характеристическим вектором ui(tk) и центром em(tk) m-ого кластера кластерной структуры ИП.Сказанное подразумевает, что каждому пользователю usri USR сопоставлен характеристический (поисковый) вектор ui(tk), имеющий вид:ui(tk) = (ui,1(tk), …, ui,j(tk), …, ui,nof(Vu(t k))(tk)),(3)где- ui,j(tk) – числовая координата, соответствующая j-му поисковому термину глобального словаря Vu(tk).