Диссертация (Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска), страница 2
Описание файла
Файл "Диссертация" внутри архива находится в папке "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска". PDF-файл из архива "Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
В наши дни можно проводитьпереговоры с партнёрами по бизнесу, денежные переводы, онлайн консультации,обучение и многое другое не выходя из дома. Мобильный Интернет привязалчеловека к виртуальному миру – в любой момент времени и в любом месте наземном шаре, имея доступ к Интернету, можно быть в курсе всего, чтопроисходит в реальном мире.В 2011 году, по данным исследования аналитической компании RoyalPingdom [65], более двух миллиардов жителей планеты пользовались Интернетом.Для подключения к Интернету достаточно иметь вычислительное (персональныйкомпьютер) или мобильное (телефон или планшет) устройство с возможностьюподключения к каналу передачи данных. Для «серфинга по просторам Интернета»пользователь обычно использует простую программу – браузер (browser).Указывая адрес конкретной web-страницы или переходя по цепочке гиперссылок,пользователь получает экранный образ HTML-кода требуемой веб-страницы,включающий различные визуальные компоненты (тексты, картинки, гиперссылкии т.д.), образующие «окно в мир».Огромное количество ресурсов и содержащейся в них информациипревратило всемирную паутину в грандиозное хранилище плохо организованных,неструктурированных данных.
Поиск информации в сети Интернет стал уделомчеловечества. Средняя аудитория поисковой системы Яндекса составляет более20000000 человек в сутки [54]. В течение суток эта поисковая системаобрабатывает до 150000000 запросов, выдавая Интернет-пользователям более10000000000000 ссылок на Интернет-ресурсы [9].
К сожалению, фактом являетсято, что большинство найденных ресурсов не содержат информации, отвечающейпоисковым интересам пользователей. Например, если любитель природы включит7в поисковый запрос слово «ягуар», то в первых позициях поисковой выдачи будутавтодиллеры, которые занимаются продажей или сервисом автомобилей маркиJaguar. Для владельца или потенциального покупателя автомобиля такойрезультат является достаточно релевантным, но обычному пользователюИнтернета он вряд ли нужен. Огромное количество «мусора», выдаваемогопоисковыми системами, делает актуальной проблему персонализации Интернетпоиска, адаптации поисковых систем к запросам отдельных пользователей или ихгрупп. Мечтой становится положение, которое можно сформулировать так:«каждому пользователю свой поисковик, свой Интернет».Интуитивно любой ИП формирует свою систему классификации и отборавеб-ресурсов для удовлетворения собственных потребностей в информации.Пользователь Интернета имеет свой личный психологический портрет и посещаетконкретные, «любимые» им веб-страницы.
Если говорить о поведении человека всети Интернет, то можно выделить кратковременные (сессионные) действия ИП,которые связаны с поиском конкретной информации в течение одной илинесколькопоисковыхсессий.Когдапользовательнаходитрелевантнуюинформацию, он прекращает свой поиск и даже может выйти из сети.
Кромесессионных действий пользователей можно выделить их рутинное поведение всети, например, ежедневный утренний обзор новостей о спорте или общение всоциальных сетях в обеденное время.Крупные поисковые системы (Яндекс,Google и т.д.) пользуютсяперсональной информацией и файлами cookie из браузеров для персонализациирезультатов поиска – маркетологи, например, подбирают рекламу в зависимостиот поисковой истории или в зависимости от пола и возраста ИП.
Удачнее всегоприменяется региональный или географический таргетинг – люди думают, чтоЯндекс действительно поумнел и сказать что, это не так, нельзя. На самом делеЯндексхорошоработаетсрегиональнымизапросамиприпоискемагазинов/товаров местного пользования/потребления.Программисты работают над алгоритмами, повышающими релевантностьдокументов запросам с помощью расчёта весов поисковых терминов, что8позволяет отбирать релевантные результаты и предпочтения пользователей.
ВкомпанииЯндекскромелингвистическогоанализаконтента,индексацитирования, функции DCG (Discounted cumulative gain) [39], системы машинногообучения Матрикснет [37] и фильтров негативных признаков в число такихметодов входят и различные процедуры учета и обработки первичнойперсональной информации. Когда пользователи выдают запросы Яндексу,примерно в 20% случаев они формулируют запросы неоднозначно [39].Технология компании Яндекс, названная «Спектр» умеет учитывать множествонеявных целей пользователей и показывать соответствующие ответы.
В основеработы Спектра лежит статистика поисковых запросов ИП.Социально-демографическая (далее соц-дем) классификация – основнойметод классификации ИП после их авторизации на Интернет-сайтах –обеспечивает учет половых и возрастных различий, другой статическойатрибутивной информации пользователя [10]. Соц-дем классификация на сайтахприменяется, например, для таргетирования рекламных кампаний, но при этомповедение пользователей никак не применяется во внимание.
Проводимая настороне сайтов персонализация пользователей далека от совершенства, так каксайты работают по принципу «клиент всегда прав», то есть акцент делается нарекламодателе, вложившим большие денежные средства в продвижение товара –отсюда и хромают результаты поиска на стороне пользователей.Хорошиерезультаты,засчетпримененияассоциативныхметодовклассификации [63, 83], достигнуты для товаров, реализуемых через Интернетмагазины. Классификация позволяет увеличивать продажу товаров, когда припокупке одного товара система предлагает приобрести сопутствующий товар илинабор сопутствующих аксессуаров.
Как показывает практика, покупателидостаточно часто приобретают несколько товаров из одной классификационнойгруппы. Однако неизвестно, на сколько удачно можно применять ассоциативныеметоды для классификации ИП и ИР с целью персонализации Интернет-поиска?В последние годы в информационных источниках можно встретить общиесведения о применении методов кластеризации для классификации ИП и ИР.9Декларируются различные цели применения методов кластерного анализа кИнтернет-объектам, однако в подавляющем большинстве случаев детали этихметодов и способов их применения не разглашаются.
Так в работах [26, 38]отмечается, что для кластеризации текстовой информации могут использоватьсяметоды TF и TIDF, а также их модификации. Эти методы действительно подходятдля кластеризации текстов газет, учебников, научных статей и другихинформационных ресурсов со статичным содержанием. В своей работе [28]Куралёнок И.Е. упомянул, что векторные и вероятносные модели, которыеприменяются поисковыми системами показывающие хорошие результаты наодних данных, оказываются много хуже тех же классических моделей иа другихданных. Можно ли с их помощью добиться приемлемых результатов длякластеризации ИП и, в особенности, для кластеризации современных высокодинамических ИР остается неизвестным.Актуальность темы исследования.Приведённые аргументы свидетельствуют о необходимости дальнейшегоприспособления Интернета к нуждам пользователей и, в частности, за счетперсонализации Интернет-поиска.
Повышение уровня персонализации поиска, всвою очередь, может быть достигнуто за счет разработки перспективных методовклассификации ИП и ИР, основанных на кластерном анализе, внедрения этихметодов в существующие поисковые системы.Степень разработанности проблемы.Проблема: отсутствие эффективных методов и средств, обеспечивающихперсонализацию поиска информации в Интернете.О персонализации поиска жаркие дискуссии идут уже почти 20 лет – всезаинтересованы в том, чтобы результаты поиска в Интернете были как можноболее релевантными пользовательским запросам. Однако недостаточная научнаяпроработанность проблемы, закрытость большинства практически реализованныхрешений ведущими компаниями поставщиками Интернет-услуг обусловиланеобходимостьисследованиятеоретическихипрактическихприменения методов кластерного анализа для персонализации поиска.вопросов10По теме кластерного анализа существует обширная литература.
Онаохватывает общие вопросы математического описания объектов и алгоритмы ихкластеризации. Кластеризация объектов со статическими свойствами широкоприменяется повседневно в основном в аналитической деятельности. Однако,методы кластеризации динамических объектов, таких как ИР, недостаточноразработаны и, кроме того, мало кто из исследователей рассматривал идеюобобщенного представления объектов разной природы, обладающих подобнымисвойствами.Цели и задачи исследования.Цельюдиссертационнойработыявляетсяприменениеметодовклассического кластерного анализа для классификации ИП и ИР, дляперсонализации информационного поиска в Интернете. Для достиженияпоставленной цели требуется решить следующие основные задачи.1.