И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 30
Текст из файла (страница 30)
Один из способов исключения ненужных переменных состоит в использовании процедуры последовательного отбора наиболее полезных дискриминантных переменных. Прямая процедура последовательного отбора начинается с выбора переменной, обеспечивающей наилучшее одномерное различение. Затем анализируются пары, образованные отобранной и одной из оставшихся переменными, после чего находится пара, дающая наилучшее различение, из которой и отбирается переменная. Далее процедура переходит к !22 образованию троек из первых двух н каждой из оставшихся переменных. Наилучшая тройка определяет третью переменную.
На каждом шаге этой процедуры отбирается переменная, которая в сочетании с отобранными ранее дает наилучшее различение. Процесс продолжается до тех пор, пока не будут рассмотрены все возможные переменные или пока оставшиеся переменные не перестанут улучшать различение. Процедура последовательного отбора может работать и в об-ратном направлении, т. е.
когда все переменные первоначально считаются «входящими» в систему, а затем на каждом шаге отбрасывается одна, самая плохая. Прямой и обратный отборы могут сочетаться, но чаще применяется прямая процедура. Если какая-либо переменная больше не дает значимого вклада в процесс различения, то она отбрасывается, но на следующем шаге может быть снова отобрана. Устранение ранее отобранной переменной происходит потому, что она в значительной степени содержит ту же днскриминантную информацию, что и другие переменные, отобранные на предыдущих шагах.
В то время когда эта переменная отбиралась, она вносила существенный вклад в процесс различе~ния. Однако переменные, отобранные на последующих шагах, в сочетании с одной или несколькими, отобранными ранее, дублируют этот вклад, таким образом переменная становится избыточной н удаляется.
Процедуры последовательного отбора порождают оптимальное множество дискримннантных переменных, которое может не быть максимальной (наилучшей) комбинацией. Чтобы получить максимальное решение, нужно проверить все возможные сочетания (пары, тройки и т. д.). Такая проверка может оказаться дорогой и требующей больших временнйх затрат, Процедура последовательного отбора является логичным и эффективным способом поиска лучшей комбинации, но нет гарантии, что ее конечный продуктдействительио превосходит все остальные.
Последовательность, в которой отбираются переменные, не обязательно соответствует их относительной значимости. Вследствие коррелироваиности (что разделяет днскриминантные возможности) даже хорошие дискриминаторы могут поздно попасть или вообще не попасть в последовательность, так как их вклад в различение может оказаться меньше вклада других переменных. КРИТЕРИИ ОТБОРА Процедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора.
Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда. 123 Л-статистика Уилкса и частное г"-отношение .Л-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса. Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность не изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности, Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение, Как обсуждалось ~раньше, мы можем преобразовать Л-статистику в полную Г-статистику для проверки различий между классами.
Если такое преобразование происходит, то выбор производится по паибольп4аму значению. Вместо полного г-отношения мы можем воспользоваться частным Р-отношением, которое вычисляется так же, как и значение г'-включения (см. ниже). Использование всех трех статистик приводит к одному и тому же результату.
У-статистика Рао Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как У-статистика Рао, допустима при любом количестве классов. Она измеряет разделение центроидов классов и не касается когезивности внутри классов. Таким образом, переменная, отобранная с помощью У-статистики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистнка измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса.
Следовательно, У-статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для У-статистики имеет вид У= (п.-я) ~", ~ ао ~ п~(Хы — Х ) (Х,й — Х ), (19) »=~ ь=~ где р' — число отобранных переменных (включая отобранную на текущем шаге). Когда рассматривается большое число объектов, У-статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с ру(у — 1) степенями свободы.
Кроме того, изменение У-статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным (у — 1), умноженное на число переменных, добавленных (удаленных) на этом шаге. Мы мо. жем использовать это свойство при проверке статистической зна- 124 чимости изменения общего разделения. Если изменение не является значимым, переменную можно не включать.
При добавлении переменных изменение У-статистики может оказаться отрнца. тельным, что означает ухудшение разделения центроидов. Квадрат расстояния Махаланобиса между ближайшими классами Можно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов. Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все онн используют квадрат расстояния Махаланобиса между центроидами двух классов, Конечно, одна из этих статистик — само расстояние Р'. Это прямая непосредственная мера, в которой всем парам классов приписываются равные веса. Межгрупповая г"-статистика Р-статистика различий между двумя классами дается следующей формулой: (19) р'(н.— я) (л, +л,) Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов.
Расстояния для малых классов получат меньшие веса, чем расстояния для больших классов. Таким образом, этот критерий стремится увеличить различия между парами, содержащими большие группы. Минимизация остаточной дисперсии Пятый возможный критерий предназначен для минимизации остаточной дисперсии между классами. Формула имеет внд з-~ а 4 (20) , 4+В 10,10>) Каждый член суммы равен единице минус квадрат множественной корреляции между множеством рассматриваемых дискримннантных переменных и фиктивной переменной, идентифицирующей соответствующую пару классов.
Следовательно, й является остаточной дисперсией, потому что каждый член суммы представляет собой долю дисперсии фиктивной переменной, которую нельзя объяснить с помощью дискримннантных переменных. Иногда число пар классов делят на ц(ц — !)/2, чтобы получить среднюю остаточную дисперсию между классами, но зто не влияет на вы- 125 бор переменных. Кроме того, если некоторым парам нужно придать значимость, ббльшую по сравнению с другими, каждой паре можно приписать определенный вес (см.
11(хоп, 1973; 243). Учитывая одновременно все пары классов, 1т содействует формированию равномерного разделения классов. Этот критерий слегка отличается от первых двух, в которых два класса могут оставаться близкими друг другу, а значительное улучшение разделения получено для других классов нли за счет увеличения внутри- групповой когезии. Он также отличается от третьего и четвертого критериев, в которых основное внимание обращается только на самую тесную пару.
МИИИМАЛЬИЫЕ УСЛОВИЯ ИРОВЕДЕИИЯ ОТБОРА Большинство программ последовательного отбора требует, чтобы любая переменная удовлетворяла определенному минимуму условий, прежде чем она будет подвергнута проверке в соответствии с критерием отбора. Так, проверка толерантности позволяет обеспечить необходимую точность вычислений, а воспользовавшись частной Р-статистикой, мы можем установить, что возросшее различение превосходит уровень, заданный пользователемз'. С помощью некоторых программ также просматривается список уже отобранных переменных, чтобы проверить, не надо ли какие-либо из них отбросить, Толерантность Тест толерантности может обеспечить точность вычислений.
Толерантность еще не отобранной переменной равна единице минус квадрат множественной корреляции между этой переменной и всеми уже отобранными переменными, когда корреляции определяются по внутригрупповой корреляционной матрице. Если проверяемая переменная является линейной комбинацией (нли приблизительно равна линейной комбинации) одной или нескольких отобранных переменных, то ее толерантность равна нулю (нли близка к нулю). Переменная с малой толерантностью (скажем, меньше 0,001) может привести к ошибке прн вычислении матрицы, обратмой Иг, ввиду быстрого накопления ошибок округления.
Помимо вычислительных проблем, нежелательно использовать переменную, которая является линейной комбинацией отобранных переменных, потому что она не дает никакой ионой информации. Статистика Р-включения Статистика Р-включения представляет собой частную Р-статистику, оценивающую улучшение различения от использования рассматриваемой переменной по сравнению с различением, достигнутым с помощью других уже отобранных переменных (О1хоп, 1913; 241). Если величина статистики Р-включения мала, мы вряд ли отберем такую переменную, потому что она не дает достаточно большого вклада в различение. Эта частная Р-статистика с числом степеней свободы, равным (д — 1) и (и — р' — д+ 1), в качестве теста значимости, чтобы убедиться в статистической значимости улучшения различения.