И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 3
Описание файла
DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 3 - страница
Некоторые способы разделения смесей изложены в [5, 91. В. Структурный подход (кластерный анализ и визуализация данных) предполагает выделение компактных групп объектов, удаленных друг от друга, отыскивает «естественное» разбиение совокупности на области скоплений объектов. Этот подход используется для двух видов исходных данных: матриц близости или расстояний между объектами (см. 1.2, 1.3) н объектов, представленных как точки в многомерном пространстве. Если данные второго вида обычно легко свести к первому (1.3), то обратное преобразование часто )О Рис.
!.2. Различные классификании: п — результаты вероятностного, структурного и вариативного подходов совпадают; 6 — комбинанионная группировка рассекает «естественные скопления» объектов, выделяемые кластерным анализом. Нормальность по осям не свидетельствует о нормальности классов невозможно (например, для матрицы межотраслевого баланса, где объектами являются отрасли народного хозяйства, которые надо сгруппировать) . Наиболее распространены данны" второго вида, для них структурный подход можно назвать геометрическим, так как он ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.
Этот подход и будет главным предметом рассмотрения в книге. С. Вариативный (нормативный) подход заключается в разделении совокупности по некоторому признаку на группы в соответствии с определенными интервалами, причем характер распределения !! объектов на выбор интервалов и число групп практически не влияет. В одномерном случае подход реализуется рассмотренной выше структурной группировкой. Она имеет два назначения: разбить общую вариацию признака на вариацию между группами (информа-' ционная функция в том смысле, что здесь достигается простое сжатие информации) и выделить те группы, которые требуются исследователю (нормативная функция; например, выделяются заводы, выполнившие и не выполнившие план). Главное достоинство таких группировок — в их полной управляемости, однако группировки носят субъективный характер, ни о каких «естественных» группах нет и речи.
В многомерной ситуации вариативный подход реализуется в форме комбинационной группировки. Она представляет собой последовательное разрезание всей области определения каждого признака на определенные зоны в соответствии с длиной интервала. Классом называется область, ограниченная полученными по каждому признаку разделяющими плоскостями (рис. (.2). Характерной особенностью подхода является независимое поочередное использование каждого признака для выделения группы. Этот подход в свое время Р.
Сокалом и Дж. Спитом был назван монотетическим, а кластер- анализ, одновременно учитывающий все признаки,— политетическим методом [43). Общепризнанными недостатками комбинационной группировки являются: возможность образования пустых классов; резкое увеличение числа классов при росте размерности и количества градаций признаков. Достоинства группировки, как мы отметили,— четкая содержательная осмысленность, возможность контролировать группы, придавая интервалам нормативное значение. Следует добавить простоту и традиционность выполнения. Этими фактами и объясняется чрезвычайная популярность структурных группировок (любой размерности) и сравнительно малая распространенность методов кластерного анализа. 1.1.3.
СВЯЗИ МЕЖДУ ПОДХОД*МИ И КОМВИНИВОВДННЫЕ МЕТОДЬ1 Все подходы изложены выше в чистом виде. На самом деле существует немало промежуточных подходов, сравнительный анализ которых проводится редко и неполно. Связь подходов А и В. Рассмотрим вопрос о сферах применимости вероятностного подхода в прикладных исследованиях, в частности экономических. Необходимость такого рассмотрения вызывается непрекращающимися спорами на этот счет, в которых мнения исследователей колеблются между двумя крайними точками зрения. Согласно одной из них любые явления, подвергающиеся статистическому анализу (даже единичные наблюдения), следует оценивать с вероятностных позиций [69, 82, 98 и др.).
В соответствии с другим мнением, вероятностные оценки либо имеют очень малую область полезного применения, либо неприменимы вообще нигде [8 и др.]. Подробное рассмотрение возникающих здесь сложных и тонких проблем выходит за рамки предмета книги. Однако попробуем по крайней мере четко определить свою позицию (см. также [55]). Традиционные учебные пособия довольно уклончиво дают определение статистической вероятности, отмечая лишь соответствие наблюдаемых частот некоторым теоретическим числам — вероятностям, при этом не оговаривая подробно, как именно такое соответствие проверять.
Последователен в этом отношении только подход Р. Мизеса, сформулированный в первые десятилетия нашего века, им вероятность определена как предельное значение частоты при и- оо. Поэтому нельзя говорить о вероятности события в отдельном единичном опыте, а можно говорить лишь о вероятности (частоте) события в серии испытаний. Однако все доверительные интервалы и вероятности — главный продукт математической статистики — построены на основании домысливания некоторых пепроверяемых экспериментально вещей: например, предполагается обычно независимость отдельных наблюдений, что проверить в принципе нельзя (требуется проверять независимость отдельных серий наблюдений), постулируется наличие одного закона распределения — а это тоже надо проверять, имея серию серий и т.
д. Поэтому, по мнению Ю. Алимова [8], лучше считать только «первичные», поддающиеся измерению вероятности в форме частот, и определять «доверительные интервалы» непосредственно по отклонениям в сериях, чем прибегать к упомянутым непроверяемым предположениям. Собственно статистические критерии, возможно, и могут применяться в чисто стохастических областях с миллионами наблюдений (в основном в статистической физике), но при тщательной проверке устойчивости, воспроизводимости результатов от серии к серии.
В целом такого рода рассуждения представляются логичными. Однако, критикуя «теорию» и ратуя за «естественный материализм» прикладника, Ю. И. Алимов проявляет ту самую излишнюю строгость, которая свойственна математике по определению. Во-первых, абсолютно исключаются из рассмотрения нестатистические трактовки вероятности (классическое и логическое определения), что очень спорно. Скажем, чтобы точно убедиться в том, что вероятность выпадения орла равна 1/2, надо в соответствии со статистическим определением провести очень много испытаний.
Вполне вероятно, что они покажут систематическое отклонение частот от этого уровня, т. е. классическое определение окажется неверным (монета не симметрична). Но дело в том, что в огромном числе случаев есть практическая убежденность в истинности гипотезы о симметричности монеты, что позволяет в целях экономии сил и ресурсов не проверять каждое событие статистически. Тот же прикладник может из самых утилитарных соображений принять классическое определение и оказаться ~з почти всегда прав. Аналогично обстоит дело с субъективистскими вероятностями (например, в экспертных системах), где воспроизводимость результатов может в принципе отсутствовать (скажем, при принятии решений о строительстве уникального объекта), но оценки, подобные вероятностным, могут даваться.
Во-вторых, уже в рамках статистического подхода строгие требования к устойчивости статистических наблюдений выглядят во многих случаях чрезмерными. В очень многих случаях действительно гипотезы выборочного метода близки к истине и оценки оказываются практически удовлетворительными, хотя и точно иеверифицируемыми. Требование постоянной пошаговой проверяемости сродни нередко бытующему среди экономистов требованию того, чтобы каждый шаг решения какой-то задачи был экономически оправдан.
Казалось бы', это верно, но нельзя дать экономическую интерпретацию матричным операциям компонентного анализа или методу ветвей и границ, хотя их результаты и используются в экономическом анализе. Картина, подобная выборочной, наблюдается н в ряде так называемых пассивных экспериментов, например прн изучении множества больных одной болезнью, множества колосков пшеницы на одном поле и т. д. В таких ситуациях имеет место мысленная устойчивость результата в силу принципиальной допустимости воспроизведения опытов в постоянных условиях (см.
[3, т. !]), но генеральная совокупность определена нечетко (то ли все больные мира, то ли данного региона и т. д.). Применение статистических критериев здесь сталкивается с рядом трудностей, многие из которых названы в [8]. Поэтому можно согласиться с С. А. Айвазяном, считающим такие совокупности «промежуточным объектом» для применения статистических критериев [3, т.
!]. Добавим, что регулярную пользу доверительные интервалы здесь могут принести, по нашему мнению, не сами по себе, а в сочетании со схемой нескольких серий, когда интервалы разных наборов наблюдений сравниваются с целью установить в них что-то общее. Однако такие исследования выполняются очень редко. Все сказанное особенно существенно для экономических приложений, в которых часто наблюдают так называемые «сплошные совокупности» (все заводы отрасли, все совхозы района и т.
д.). Многие статистики считают, что и здесь вероятностные концепции полностью оправданы и имеют теоретическое обоснование [77, 98]. Об этом же говорит и повсеместная практика расчета доверительных интервалов для коэффициента регрессии и др., полученных на таких данных. Перечислим только основные возражения против бесконтрольного применения доверительных интервалов в изучении экономических процессов.