Труевцева (1194872), страница 3

Файл №1194872 Труевцева (Модели разведочного анализа данных для решения прикладных задач) 3 страницаТруевцева (1194872) страница 32020-10-01СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Цели кластеризации:

  • Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).

  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

  • Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов:

  • Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов

  • Подходы на основе систем искусственного интеллекта

  • Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.

  • Теоретико-графовый подход.

  • Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка).

  • И др.

1.4.3 Дискриминантный анализ

Дискриминантный анализ, как раздел многомерного статистического анализа, включает в себя статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками ("классификация с учителем"). Например, для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их по надежности на несколько категорий по ряду признаков. В случае, когда следует отнести клиента к той или иной категории используют процедуры дискриминантного анализа. Очень удобно использовать дискриминантный анализ при обработке результатов тестирования. Так при выборе кандидатов на определенную должность можно всех опрошенных претендентов разделить на две группы - удовлетворяющих и неудовлетворяющих предъявляемым требованиям.

Все процедуры дискриминантного анализа можно разбить на две группы и рассматривать их как совершенно самостоятельные методы. Первая группа процедур позволяет интерпретировать различия между существующими классами, вторая - производить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.

Пусть имеется множество единиц наблюдения - генеральная совокупность. Каждая единица наблюдения характеризуется несколькими признаками: xij - значение j-й переменной i-го объекта (i=1,..., n; j=1,..., p). Предположим, что все множество объектов разбито на несколько подмножеств (два и более). Из каждого подмножества взята выборка объемом nk, где k - номер подмножества (класса), k = 1,..., q.

Признаки, которые используются для того, чтобы отличать один класс (подмножество) от другого, называются дискриминантными переменными. Число объектов наблюдения должно превышать число дискриминантных переменных: p<n. Дискриминантные переменные должны быть линейно независимыми. Основной предпосылкой дискриминантного анализа является нормальность закона распределения многомерной величины. Это означает, что каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения.

Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе. Канонической дискриминантной функцией называется линейная функция:

dkm = β0 + β1*x1km + ... + βp*xpkm ,

где

dkm - значение канонической дискриминантной функции для m-го объекта в группе k (m = 1, ..., n, k = 1, ..., g);

xpkm - значение дискриминантной переменной Xi для m-го объекта в группе k;

β0, ..., βp - коэффициенты дискриминантной функции.

С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при p=2 она является прямой, а при p=3 — плоскостью.

Коэффициенты βi первой канонической дискриминантной функции выбираются таким образом, чтобы центроиды (средние значения) различных групп как можно больше отличались друг от друга. Коэффициенты второй группы выбираются также, но при этом налагается дополнительное условие, чтобы значения второй функции были некоррелированы со значениями первой. Аналогично определяются и другие функции. Отсюда следует, что любая каноническая дискриминантная функция d имеет нулевую внутригрупповую корреляцию с d1, d2, ..., dg-1. Если число групп равно g, то число канонических дискриминантных функций будет на единицу меньше числа групп. Однако по многим причинам практического характера полезно иметь одну, две или же три дискриминантных функций. Тогда графическое изображениее объектов будет представлено в одно–, двух– и трехмерных пространствах. Такое представление особенно полезно в случае, когда число дискриминантных переменных p велико по сравнению с числом групп g.

1.5 Графические методы РАД (визуализация данных)

Широкий набор мощных методов разведочного анализа данных представлен также средствами графической визуализации данных. С их помощью можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

Возможно, самым распространенным и исторически первым из методов, которые с полным основанием можно отнести к графическому разведочному анализу данных, стало закрашивание - интерактивный метод, позволяющий пользователю выбирать на экране компьютера отдельные точки-наблюдения или группы таких точек, находить их характеристики (в том числе общие) и изучать влияние отдельных наблюдений на соотношения между различными переменными. Эти соотношения между переменными также могут быть визуализированы с помощью подгоночных функций вместе с соответствующими доверительными интервалами, и, таким образом, пользователь может в интерактивном режиме исследовать изменения параметров этих функций, временно удаляя или добавляя фрагменты набора данных. С помощью закрашивания, например, можно выбрать (выделить) на одной из матричных диаграмм рассеяния все точки данных, принадлежащие определенной категории. Таким образом можно определить, как эти наблюдения влияют на взаимосвязи между другими переменными этого набора данных.

К другим аналитическим графическим методам относятся подгонка и построение функций, сглаживание данных, наложение и объединение нескольких изображений, категоризация данных, расщепление или слияние подгрупп данных на графике, агрегирование данных, идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям, построение пиктографиков, штриховка, построение доверительных интервалов и областей, создание мозаичных структур, спектральных плоскостей, послойное сжатие, а также использование карт линий уровня, методов редукции выборки, интерактивного (и динамического) вращения и динамического расслоения трехмерных изображений, выделение определенных наборов и блоков данных.

1.6 Алгоритм проведения разведочного анализа

Процедура включает три основных этапа:

  • начальное исследование

  • построение модели или идентификация выборки вместе с проверкой/подтверждением

  • развертывание (т.е., применение модели к новым данным для осуществления прогноза)

Этап 1: Исследование. Этот этап обычно начинается с подготовки данных, которая может включать очистку данных, преобразования данных, выбор подмножеств, а также, в случае наборов данных с большим числом переменных ("полей"), анализа их свойств для того, чтобы количество переменных свести к разумному числу (в зависимости от рассматриваемых статистических методов). Затем, в зависимости от характера аналитической задачи, первый этап процесса "добычи данных" может включать как простой выбор непосредственных предикторов для регрессионной модели, так и тщательное проведение разведочного анализа с использованием ряда графических и статистических методов для нахождения наиболее подходящих переменных и определения сложности и/или общего характера моделей, которые можно использовать на следующем этапе.

Этап 2: Построение модели и проверка. Этот этап включает рассмотрение различных моделей и выбор наилучшей на основании их характеристик (например, объяснение изменчивости и получение надежных результатов по выборкам). Может показаться, что эта простая операция. Но, на самом деле, она иногда является очень сложным процессом. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой "конкурентной оценке моделей," которая состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей модели. Эти методы, которые часто рассматриваются как ядро Предсказывающей добычи данных, включают: Накопление (Голосование, Усреднение), Бустинг, и Мета-обучение.

Этап 3: Развертывание. Этот завершающий этап включает использование модели, выбранной в качестве наилучшей на предыдущем этапе, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов.

Концепция "добычи данных" приобретает все большее распространение, как инструмент для управления деловой информацией в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса, в целом системы добычи данных по-прежнему основываются на классических принципах РАД и построения моделей и используют те же подходы и методы.

1.7 Генеральная совокупность, репрезентативность и выборка

Генеральная совокупность — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

    • Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

    • Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

    • Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

    • Существует необходимость в сборе первичной информации.

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

    • пары близнецов,

    • два измерения какого-либо признака до и после экспериментального воздействия,

    • мужья и жёны

    • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

    • мужчины и женщины,

    • психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

    • t-критерий Стьюдента

    • Критерий Уилкоксона

    • U-критерий Манна-Уитни

    • Критерий знаков

    • и др.

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Репрезентативность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана. Также репрезентативность можно определить, как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

2 Разработка алгоритма проведения разведочного анализа

2.1 Постановка задачи

Разработка алгоритма проведения разведочного анализа и подбор математических методов для задачи принятия решения подтверждения статуса аптеки в разряде низких цен.

Задачи:

  • Анализ баз данных фармации: сайты аптек

  • Выборка информации из сайтов аптек для исследования

  • Разработка алгоритма для математических методов анализа

  • Анализ результатов исследования

  • Предоставление данных для заказчиков исследования

2.2 Статистические критерии для сравнения

2.2.1 Парный критерий Стьюдента

Статистическая модель. Выборочные значения является реализацией случайной величины имеющей двухмерное нормальное распределение. Случайная величина X имеет математическое ожидание , случайная величина

Гипотеза

А. Равенство Б. Неравенство В. Неравенство

Характеристики

Тип файла
Документ
Размер
5,32 Mb
Высшее учебное заведение

Список файлов ВКР

Модели разведочного анализа данных для решения прикладных задач
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7026
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее