Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 30
Текст из файла (страница 30)
Расстояния для малых классов получат меньшие веса, чем расстояния для больших классов. Таким образом, этот критерий стремится увеличить различия между парами, содержащими большие группы. Минимизация остаточной дисперсии Пятый возможный критерий предназначен для минимизации остаточной дисперсии между классами. Формула имеет внд з-~ а 4 (20) , 4+В 10,10>) Каждый член суммы равен единице минус квадрат множественной корреляции между множеством рассматриваемых дискримннантных переменных и фиктивной переменной, идентифицирующей соответствующую пару классов. Следовательно, й является остаточной дисперсией, потому что каждый член суммы представляет собой долю дисперсии фиктивной переменной, которую нельзя объяснить с помощью дискримннантных переменных.
Иногда число пар классов делят на ц(ц — !)/2, чтобы получить среднюю остаточную дисперсию между классами, но зто не влияет на вы- 125 бор переменных. Кроме того, если некоторым парам нужно придать значимость, ббльшую по сравнению с другими, каждой паре можно приписать определенный вес (см. 11(хоп, 1973; 243).
Учитывая одновременно все пары классов, 1т содействует формированию равномерного разделения классов. Этот критерий слегка отличается от первых двух, в которых два класса могут оставаться близкими друг другу, а значительное улучшение разделения получено для других классов нли за счет увеличения внутри- групповой когезии. Он также отличается от третьего и четвертого критериев, в которых основное внимание обращается только на самую тесную пару. МИИИМАЛЬИЫЕ УСЛОВИЯ ИРОВЕДЕИИЯ ОТБОРА Большинство программ последовательного отбора требует, чтобы любая переменная удовлетворяла определенному минимуму условий, прежде чем она будет подвергнута проверке в соответствии с критерием отбора.
Так, проверка толерантности позволяет обеспечить необходимую точность вычислений, а воспользовавшись частной Р-статистикой, мы можем установить, что возросшее различение превосходит уровень, заданный пользователемз'. С помощью некоторых программ также просматривается список уже отобранных переменных, чтобы проверить, не надо ли какие-либо из них отбросить, Толерантность Тест толерантности может обеспечить точность вычислений.
Толерантность еще не отобранной переменной равна единице минус квадрат множественной корреляции между этой переменной и всеми уже отобранными переменными, когда корреляции определяются по внутригрупповой корреляционной матрице. Если проверяемая переменная является линейной комбинацией (нли приблизительно равна линейной комбинации) одной или нескольких отобранных переменных, то ее толерантность равна нулю (нли близка к нулю). Переменная с малой толерантностью (скажем, меньше 0,001) может привести к ошибке прн вычислении матрицы, обратмой Иг, ввиду быстрого накопления ошибок округления.
Помимо вычислительных проблем, нежелательно использовать переменную, которая является линейной комбинацией отобранных переменных, потому что она не дает никакой ионой информации. Статистика Р-включения Статистика Р-включения представляет собой частную Р-статистику, оценивающую улучшение различения от использования рассматриваемой переменной по сравнению с различением, достигнутым с помощью других уже отобранных переменных (О1хоп, 1913; 241). Если величина статистики Р-включения мала, мы вряд ли отберем такую переменную, потому что она не дает достаточно большого вклада в различение.
Эта частная Р-статистика с числом степеней свободы, равным (д — 1) и (и — р' — д+ 1), в качестве теста значимости, чтобы убедиться в статистической значимости улучшения различения. Переменная должна пройти проверку толерантности и Р-включения, прежде чем она будет рассмотрена в соответствии с критерием отбора. Статистика Р-удаления Статистика Р-удаления также является частной Р-статистикой с числом степеней свободы, равным (д — 1) и (а — р' — я).
Однако она оценивает значимость ухудшения различения после удаления переменной нз списка уже отобранных переменных. Эта процедура проводится в начале каждого шага, чтобы проверить, имеется лн какая-нибудь переменная, уже не вносящая достаточно большого вклада в различение, поскольку отобранные позже переменные дублируют ее вклад. На заключительном шаге статистика Р-удаления может быть использована для ра|нжирования днскриминантных возможностей отобранных переменных.
Переменная с наибольшим значением статистики Р-удаления дает наибольший вклад в различение, достигнутое благодаря другим переменным. Переменная, имеющая вторую по величине статистику Р-удаления, является второй по значимости и т. д. Это ранжирование не обязательно совпадает с тем, которое можно было бы получить с помощью одномерной Р-статистики, потому что она измеряет полную дискриминанъную способность переменной без учета дублирования ее другими переменными. ПРИМЕР ИСПОЛЬЗОВАНИЯ ПРОПЕДУРЫ ПОСЛЕДОВАТЕЛЬНОГО ОТБОРА Для того чтобы понять, как процедура последовательного отбора работает на практике, применим эту методику к данным Бардес о голосовании в сенате.
Когда квадрат расстояния Махаланобиса используется в качестве критерия отбора, мы получаем результаты, приведенные в табл. 13. На первом шаге толерантность всегда равна 1,О, потому что перемененные еще не были отобраны. По той же причине здесь статистика Р-включения соответствует одномерной Р-статистике. В четвертом столбце даны значения В', среди которых мы находим наибольшее.
Это значение, равное 0,492, получено для переменной СТ)ТАЗ!АМ при сравнении групп 1 и 4. Заметьте, что самая тесная пара (пара самых близких классов) для перемен~ной С()ТА$1АХ не является таковой ни для какой другой переменной (для четырех групп должны быть рассмотрены шесть пар). Наш выбор статистики квадрата расстояния в качестве критерия отбора основан на предположении, что мы хотим уделить больше Таблица 13 Статистики включения югя последователького отбора тоиерапт- ность Статистика г.акаюеепая Кааарат рассеивая Группы Переыеакые Шаг 1 С1!ТА!В КЕБТй1СТ СВТА81АХ М1ХЕВ АХТ1У1!60 АХТ1ХЕ!7Т Шаг 2 СВТА1В КЕБТЙ1СТ М1ХЕВ АХТ1УУ60 АХТ1 Х Е11Т Шаг 3 С!!ТА!В ЕЕЗТЯ1СТ М1ХЕВ АХТ171!60 Шаг 4 С!!ТА!В М1ХЕВ АХТ1У1760 Шаг 5 С!!ТА!В М1ХЕВ Шаг 6 С!!ТА!В 1, 000 1,000 1,000 1,000 !, 000 1,000 0,018 0,004 0,4йит О, 038 0,019 0,194 2,955 0,943 !1,915 2,628 4,168 Зи4 1 ИЗ 1и4 Зи4 2 из Зи4 0,521 0.684 0,305 0,851 О,ЗоЗ 0,748 3,4!8 7,98! 2,898 8,502 О, 820 0,495 3,0!4 3,370 3,801' 1 и 4 1 и 4 !и4 Зи4 1и4 0,507 0,446 0,282 0,546 4,590 5,405т 5, 094 4,730 0,700 1,228 1,496 1,376 1и4 1и4 1и4 1 и 4 0,486 0,282 0,488 0,701 1,378 1,887 5,823 6„743 7,519' 1и4 1и4 1и4 1,234 1,236 0,407 0,282 7,523 8,186т !и4 1и4 0,330 9,043' 0,672 1 и 4 ' Обозначает перемеииую, отобраииую иа атом шаге в соответствии с квадратом расстояиия Махалаиобиса между двумя самыми близкими группами.
внимания влиянию рассматриваемой переменной на разделение ближайших групп. Смысл использования здесь этого критерия состоит лишь в том, чтобы проиллюстрировать работу последовательного отбора. В этом примере переменная С11ТАЯАтч является очевидным выбором, поскольку для нее значения и квадрата расстояния, и статистики Р-включения, намного больше, чем для любой другой перемен~ной. Стоит отметить, однако, что на этом шаге квадрат расстояния для переменной АХТ1ХЕ11Т более чем в 10 раз превосходит соответствующее значение для СУТА!Р, в то время как значения статистики Р-включения для них почти равны.
На втором шаге процедуры снова вычисляются все необходи- мые статистики с учетом отобранной переменной С[ЗТАЫАИ. Теперь толерантность почти наверное станет меньше единицы, поскольку она равна единице минус квадрат корреляции между С(1ТАЫАМ и другой переменной. Статистика г"-включения равна частной Р-статистике, отвечающей увеличению дискрими~нантных возможностей за счет использования соответствующей переменной после того, как переменная С1)ТАЫАб) реализовала все свои возможности.
А квадрат расстояния равен наименьшей из величин, полученных для всех шести пар групп с помощью С11ТАЫАМ и данной переменной. Здесь у АХТ1НЕ11Т наибольшее нз данных наименьших значений. На шаге 3 процесс повторяется. Поскольку в качестве критерия выбора («включения») мы используем квадраты расстояний, следующей «включается» переменная КЕЗТИСТ. Однако если в качестве критерия отбора мы применяем Л-статистику Уилиса, косвенно измеряемую статистикой Р-включения, то мы выбрали бы М1ХЕР. Расхождение вызвано тем, что каждый критерий придает особое значение собственному аспекту процесса различения.