Труевцева (1194872), страница 3
Текст из файла (страница 3)
Цели кластеризации:
-
Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
-
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
-
Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов:
-
Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов
-
Подходы на основе систем искусственного интеллекта
-
Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
-
Теоретико-графовый подход.
-
Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка).
-
И др.
1.4.3 Дискриминантный анализ
Дискриминантный анализ, как раздел многомерного статистического анализа, включает в себя статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками ("классификация с учителем"). Например, для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их по надежности на несколько категорий по ряду признаков. В случае, когда следует отнести клиента к той или иной категории используют процедуры дискриминантного анализа. Очень удобно использовать дискриминантный анализ при обработке результатов тестирования. Так при выборе кандидатов на определенную должность можно всех опрошенных претендентов разделить на две группы - удовлетворяющих и неудовлетворяющих предъявляемым требованиям.
Все процедуры дискриминантного анализа можно разбить на две группы и рассматривать их как совершенно самостоятельные методы. Первая группа процедур позволяет интерпретировать различия между существующими классами, вторая - производить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.
Пусть имеется множество единиц наблюдения - генеральная совокупность. Каждая единица наблюдения характеризуется несколькими признаками: xij - значение j-й переменной i-го объекта (i=1,..., n; j=1,..., p). Предположим, что все множество объектов разбито на несколько подмножеств (два и более). Из каждого подмножества взята выборка объемом nk, где k - номер подмножества (класса), k = 1,..., q.
Признаки, которые используются для того, чтобы отличать один класс (подмножество) от другого, называются дискриминантными переменными. Число объектов наблюдения должно превышать число дискриминантных переменных: p<n. Дискриминантные переменные должны быть линейно независимыми. Основной предпосылкой дискриминантного анализа является нормальность закона распределения многомерной величины. Это означает, что каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения.
Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе. Канонической дискриминантной функцией называется линейная функция:
dkm = β0 + β1*x1km + ... + βp*xpkm ,
где
dkm - значение канонической дискриминантной функции для m-го объекта в группе k (m = 1, ..., n, k = 1, ..., g);
xpkm - значение дискриминантной переменной Xi для m-го объекта в группе k;
β0, ..., βp - коэффициенты дискриминантной функции.
С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при p=2 она является прямой, а при p=3 — плоскостью.
Коэффициенты βi первой канонической дискриминантной функции выбираются таким образом, чтобы центроиды (средние значения) различных групп как можно больше отличались друг от друга. Коэффициенты второй группы выбираются также, но при этом налагается дополнительное условие, чтобы значения второй функции были некоррелированы со значениями первой. Аналогично определяются и другие функции. Отсюда следует, что любая каноническая дискриминантная функция d имеет нулевую внутригрупповую корреляцию с d1, d2, ..., dg-1. Если число групп равно g, то число канонических дискриминантных функций будет на единицу меньше числа групп. Однако по многим причинам практического характера полезно иметь одну, две или же три дискриминантных функций. Тогда графическое изображениее объектов будет представлено в одно–, двух– и трехмерных пространствах. Такое представление особенно полезно в случае, когда число дискриминантных переменных p велико по сравнению с числом групп g.
1.5 Графические методы РАД (визуализация данных)
Широкий набор мощных методов разведочного анализа данных представлен также средствами графической визуализации данных. С их помощью можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.
Возможно, самым распространенным и исторически первым из методов, которые с полным основанием можно отнести к графическому разведочному анализу данных, стало закрашивание - интерактивный метод, позволяющий пользователю выбирать на экране компьютера отдельные точки-наблюдения или группы таких точек, находить их характеристики (в том числе общие) и изучать влияние отдельных наблюдений на соотношения между различными переменными. Эти соотношения между переменными также могут быть визуализированы с помощью подгоночных функций вместе с соответствующими доверительными интервалами, и, таким образом, пользователь может в интерактивном режиме исследовать изменения параметров этих функций, временно удаляя или добавляя фрагменты набора данных. С помощью закрашивания, например, можно выбрать (выделить) на одной из матричных диаграмм рассеяния все точки данных, принадлежащие определенной категории. Таким образом можно определить, как эти наблюдения влияют на взаимосвязи между другими переменными этого набора данных.
К другим аналитическим графическим методам относятся подгонка и построение функций, сглаживание данных, наложение и объединение нескольких изображений, категоризация данных, расщепление или слияние подгрупп данных на графике, агрегирование данных, идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям, построение пиктографиков, штриховка, построение доверительных интервалов и областей, создание мозаичных структур, спектральных плоскостей, послойное сжатие, а также использование карт линий уровня, методов редукции выборки, интерактивного (и динамического) вращения и динамического расслоения трехмерных изображений, выделение определенных наборов и блоков данных.
1.6 Алгоритм проведения разведочного анализа
Процедура включает три основных этапа:
-
начальное исследование
-
построение модели или идентификация выборки вместе с проверкой/подтверждением
-
развертывание (т.е., применение модели к новым данным для осуществления прогноза)
Этап 1: Исследование. Этот этап обычно начинается с подготовки данных, которая может включать очистку данных, преобразования данных, выбор подмножеств, а также, в случае наборов данных с большим числом переменных ("полей"), анализа их свойств для того, чтобы количество переменных свести к разумному числу (в зависимости от рассматриваемых статистических методов). Затем, в зависимости от характера аналитической задачи, первый этап процесса "добычи данных" может включать как простой выбор непосредственных предикторов для регрессионной модели, так и тщательное проведение разведочного анализа с использованием ряда графических и статистических методов для нахождения наиболее подходящих переменных и определения сложности и/или общего характера моделей, которые можно использовать на следующем этапе.
Этап 2: Построение модели и проверка. Этот этап включает рассмотрение различных моделей и выбор наилучшей на основании их характеристик (например, объяснение изменчивости и получение надежных результатов по выборкам). Может показаться, что эта простая операция. Но, на самом деле, она иногда является очень сложным процессом. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой "конкурентной оценке моделей," которая состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей модели. Эти методы, которые часто рассматриваются как ядро Предсказывающей добычи данных, включают: Накопление (Голосование, Усреднение), Бустинг, и Мета-обучение.
Этап 3: Развертывание. Этот завершающий этап включает использование модели, выбранной в качестве наилучшей на предыдущем этапе, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов.
Концепция "добычи данных" приобретает все большее распространение, как инструмент для управления деловой информацией в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса, в целом системы добычи данных по-прежнему основываются на классических принципах РАД и построения моделей и используют те же подходы и методы.
1.7 Генеральная совокупность, репрезентативность и выборка
Генеральная совокупность — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.
Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.
Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Характеристики выборки:
-
Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.
-
Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.
Необходимость выборки
-
Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.
-
Существует необходимость в сборе первичной информации.
Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.
Зависимые и независимые выборки
При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:
-
пары близнецов,
-
два измерения какого-либо признака до и после экспериментального воздействия,
-
мужья и жёны
-
и т. п.
В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:
-
мужчины и женщины,
-
психологи и математики.
Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.
Сравнение выборок производится с помощью различных статистических критериев:
-
t-критерий Стьюдента
-
Критерий Уилкоксона
-
U-критерий Манна-Уитни
-
Критерий знаков
-
и др.
Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.
Репрезентативность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана. Также репрезентативность можно определить, как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.
2 Разработка алгоритма проведения разведочного анализа
2.1 Постановка задачи
Разработка алгоритма проведения разведочного анализа и подбор математических методов для задачи принятия решения подтверждения статуса аптеки в разряде низких цен.
Задачи:
-
Анализ баз данных фармации: сайты аптек
-
Выборка информации из сайтов аптек для исследования
-
Разработка алгоритма для математических методов анализа
-
Анализ результатов исследования
-
Предоставление данных для заказчиков исследования
2.2 Статистические критерии для сравнения
2.2.1 Парный критерий Стьюдента
Статистическая модель. Выборочные значения
является реализацией случайной величины
имеющей двухмерное нормальное распределение. Случайная величина X имеет математическое ожидание
, случайная величина
Гипотеза
А. Равенство Б. Неравенство В. Неравенство















