Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 29
Текст из файла (страница 29)
Это происходит потому, что обоснование решения производится по той же выборке, которая применялась для получения классифицирующих функций, Выражения, использованные при созда~нии этих функций, чувствительны к выборочным погрешностям. Таким об,разом, функции отражают свойства конкретной выборки более точно, чем свойства всей генеральной совокупности»».
Если выборка достаточно велика, то мы можем при обосновании процедуры классификации взять случайное разбиение выборки на два подмножества. Одно подмножество необходимо для получения функций, а другое — только для проверки классификаций. Поскольку подмножества имеют различные выборочные ошибки, тестовое подмножество даст лучшую оценку способности предсказания свойств генеральной совокупности. Статистики расходятся во мнениях о целесообразных размерах двух подмножеств Одни рекомендуют выбирать их равными, тогда как другие предпочитают брать ббльшнми размеры того нли друго- 121 го подмножества.
Однако главное внимание необходимо уделять тому, чтобы подмножество, используемое для вывода функций, было достаточно велико для обеспечения стабильности коэффициентов, иначе проверка будет обречена на неудачу с самого начала, Мы рассмотрели различные процедуры классификации, которые позволяют предсказать принадлежность конкретных объектов к определенным классам, дают нам полезную информацию: !) об отдельных объектах; 2) о различиях между классами и 3) о способности переменных как целого точно различать классы. В вашем обсуждении до сих пор предполагалось, что выбор множества дискримпнжнтных переменных является оптимальным. Теперь перейдем к выделению некоторых подмножеств этих переменных, которые оказываются более экономичнымн, но столь же эффективными, как все множество.
У. ПОСЛЕДОВАТЕЛЪНЪ|Й ОТБОР ПЕРЕМЕН НЪ|Х Исследователи часто сталкиваются с ситуациями, когда в нх распоряжении оказывается несколько возможных дискриминантных переменных, а они ~не уверены, все ли из этих переменных полезны и необходимы. Подобные ситуации часто возникают, когда затруднительно привести точный список дискриминантных переменных. В результате собираются данные о всех переменных, которые, как «предполагается», являются хорошими дискриминаторами, или же исследование носит предварительный характер и специалисты пытаются обнаружить полезные дискриминантные переменные.
В этих ситуациях одна или больше переменных могут оказаться плохими дискриминаторами, потому что средние классов слабо различаются по этим переменным. Кроме того, две или больше переменных могут нести одинаковую информацию, хотя каждая является хорошим дискриминатором. Если некоторые из них заняты в анализе, остальные оказываются лишними. Последние не вносят никакого вклада в анализ, (хотя сами по себе они могут быть хорошими дискриминаторами), потому что в них недостаточно новой информации. Если нет убедительных теоретических соображений в пользу сохранения таких <избыточныхэ переменных, их рекомендуется исключать, поскольку они только усложняют анализ и могут даже увеличить число неправильных классификаций. Один из способов исключения ненужных переменных состоит в использовании процедуры последовательного отбора наиболее полезных дискриминантных переменных.
Прямая процедура последовательного отбора начинается с выбора переменной, обеспечивающей наилучшее одномерное различение. Затем анализируются пары, образованные отобранной и одной из оставшихся переменными, после чего находится пара, дающая наилучшее различение, из которой и отбирается переменная. Далее процедура переходит к !22 образованию троек из первых двух н каждой из оставшихся переменных. Наилучшая тройка определяет третью переменную. На каждом шаге этой процедуры отбирается переменная, которая в сочетании с отобранными ранее дает наилучшее различение.
Процесс продолжается до тех пор, пока не будут рассмотрены все возможные переменные или пока оставшиеся переменные не перестанут улучшать различение. Процедура последовательного отбора может работать и в об-ратном направлении, т. е. когда все переменные первоначально считаются «входящими» в систему, а затем на каждом шаге отбрасывается одна, самая плохая. Прямой и обратный отборы могут сочетаться, но чаще применяется прямая процедура. Если какая-либо переменная больше не дает значимого вклада в процесс различения, то она отбрасывается, но на следующем шаге может быть снова отобрана.
Устранение ранее отобранной переменной происходит потому, что она в значительной степени содержит ту же днскриминантную информацию, что и другие переменные, отобранные на предыдущих шагах. В то время когда эта переменная отбиралась, она вносила существенный вклад в процесс различе~ния. Однако переменные, отобранные на последующих шагах, в сочетании с одной или несколькими, отобранными ранее, дублируют этот вклад, таким образом переменная становится избыточной н удаляется. Процедуры последовательного отбора порождают оптимальное множество дискримннантных переменных, которое может не быть максимальной (наилучшей) комбинацией. Чтобы получить максимальное решение, нужно проверить все возможные сочетания (пары, тройки и т.
д.). Такая проверка может оказаться дорогой и требующей больших временнйх затрат, Процедура последовательного отбора является логичным и эффективным способом поиска лучшей комбинации, но нет гарантии, что ее конечный продуктдействительио превосходит все остальные. Последовательность, в которой отбираются переменные, не обязательно соответствует их относительной значимости. Вследствие коррелироваиности (что разделяет днскриминантные возможности) даже хорошие дискриминаторы могут поздно попасть или вообще не попасть в последовательность, так как их вклад в различение может оказаться меньше вклада других переменных.
КРИТЕРИИ ОТБОРА Процедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора. Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда. 123 Л-статистика Уилкса и частное г"-отношение .Л-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса.
Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность не изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности, Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение, Как обсуждалось ~раньше, мы можем преобразовать Л-статистику в полную Г-статистику для проверки различий между классами.
Если такое преобразование происходит, то выбор производится по паибольп4аму значению. Вместо полного г-отношения мы можем воспользоваться частным Р-отношением, которое вычисляется так же, как и значение г'-включения (см. ниже). Использование всех трех статистик приводит к одному и тому же результату. У-статистика Рао Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как У-статистика Рао, допустима при любом количестве классов.
Она измеряет разделение центроидов классов и не касается когезивности внутри классов. Таким образом, переменная, отобранная с помощью У-статистики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистнка измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса. Следовательно, У-статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для У-статистики имеет вид У= (п.-я) ~", ~ ао ~ п~(Хы — Х ) (Х,й — Х ), (19) »=~ ь=~ где р' — число отобранных переменных (включая отобранную на текущем шаге). Когда рассматривается большое число объектов, У-статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с ру(у — 1) степенями свободы.
Кроме того, изменение У-статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным (у — 1), умноженное на число переменных, добавленных (удаленных) на этом шаге.
Мы мо. жем использовать это свойство при проверке статистической зна- 124 чимости изменения общего разделения. Если изменение не является значимым, переменную можно не включать. При добавлении переменных изменение У-статистики может оказаться отрнца. тельным, что означает ухудшение разделения центроидов. Квадрат расстояния Махаланобиса между ближайшими классами Можно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов.
Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все онн используют квадрат расстояния Махаланобиса между центроидами двух классов, Конечно, одна из этих статистик — само расстояние Р'. Это прямая непосредственная мера, в которой всем парам классов приписываются равные веса. Межгрупповая г"-статистика Р-статистика различий между двумя классами дается следующей формулой: (19) р'(н.— я) (л, +л,) Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов.