Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 70
Текст из файла (страница 70)
Применение главных компонент при анализе производительности труда рабочих. Различные показатели производительности труда г" =(р(1>, у('>, ..., У("'>) характеризуют, как известно, отношение реально произведенной продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда от набора регулируемых (и нерегулируемых) признаков Х' —-- 868 Спорт Мебель Предметы обихода Хлебобулочные изделии Овощи Мисиые продуаты Рыбные продукты Молочные продукты Жиры Яйца Сахар Кондитерские изделии Общественное октавие (включаи расходы временно выехавших членов семьи) Культурно-просветительные мероприятия Траисиорт Услуги почты н телеграфа Жилищно-коммунальные расходы Продукты растительного происхождения Продукты животного ироисхождеини Услуги (включаи х(м> и х(м> плюс бытовые и т.
и.) Общественное питание (исключав расходы временно выехавшнх членов семьи) Все продовольственные товары Алкогольные напитки Все промышленные тона. ры = (х<о, хда>, ..., хо>), характеризующих технический и организационный уровень производства, личные качества рабочих, социально-демографические условия их жизни, постоянно <и правомерно) привлекает к себе пристальное внимание исследователей. Среди различных возможных подходов к решению этой задачи выделим следующие две схемы исследования.
г г г ° э ° з~ .г I ! < ° 28 ° ° 20н Рнс. 13.4. Исследонанне пзанмоспизей между признаками, характернзукиннмн структуру н объем семейного потреблении С х е м а 1. Состоит из двух этапов: 1) разбиение исследуемой совокупности рабочих на однородные группы в пространстве объединенных признаков (Х', Г), например, с помощью главных компонент, построенных по набору признаков х<'>, х<а>, ..., хо'>, у<4, ..., у<"'>; 2) статистическое исследование зависимостей типа г' = = 1< (Х), произведенное отдельно внутри каждой группы, выявленной на первом этапе (< — номер группы, внутри которой анализируется искомая зависимость).
С х е м а 2. Состоит из трех этапов: 1) разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов П» (Х), например, с помощью главных компонент, построенных по набору признаков х<'>, х<п..,., х<»>; 2) расщепление вектора признаков-аргументов Х' = = (х<»>, х<'>,..., х<»>) на два подвектора; подвектор Х<0' = = (х<'>, х<»>, ..., х<«>) признаков (как правило, труднорегулируемых), описывающих технический и организационный уровень производства (<)( р), и подвектор Х<'>' = (х<«+">, х<«+'>, ..., х<»>) признаков (регулируемых), описывающих социально-демографические условия труда. Затем разбиение исследчемой совокупности рабочих на однородные группы 5<!>, 5,'>,..., 5ь<> в подпространстве П«(Х<">) «нерегулируемых» признаков, а также на однородные группы 5<<>, 5<««>, ..., 5)*,> в подпространстве П>'-'> (Х<'>) «регулируемых» признаков; 3) статистическое исследование зависимостей типа У=1)<'(Х<" )Х«'Е 5<") (/=1, 2, ..., й ) и У = 1<<" (Х" ' ( Х" ' ~ 5',") (1 = 1, 2, .
„, л ), произведенное отдельно внутри каждой однородной группы подпространства П«(Х<'>) (при аргументах Х<'>) и подпространства П< '> (Х<'>) (при аргументах Х<'>). Здесь 7)" (Х'*') Х'" с 5<") означает векторную функцию от (р — <)) переменных х<«+<>, х<«">, ..., х<»>, описывающую зависимость У от Х<'> при условии, что значения «нерегулируемых» аргументов х<'>, х<'>, ..., х<«> принадлежат области 5<<>, Аналогично определяется векторная функция Г<<«>. В 19) приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (и = 100) льнокомбината «Красная текстильщица» г.
Нерехта Костромской области, составляющим более 80 % всей численности ткачих комбината. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 и в вы>неописанных схемах исследования. Интересный пример применения главных компонент, в прямой и двойственной постановках задачи, связанный со статистической обработкой экспертных оценок применительно к задаче классификации картин абстрактной живописи, читатель найдет в [18Н. 13.6. Нелинейное отображение многомерных данных в пространство низкой размерности В некоторых случаях более точного отображения геометрической структуры исходной матрицы данных Х в пространстве малой размерности можно добиться, используя нелинейное отображение [300, 9, 152[.
Для получения таких отображений задаются тем илн иным критерием (мерой) искажения 1 Я (Х)) и решают задачу на определение минимума 1. Рассмотренные в данном параграфе меры искажения основаны на сравнении попарных расстояний между точками в исходном пространстве и пространстве отображения. В зависимости от выбранного критерия может получаться та или иная конфигурация точек и существенно меняется время вычисления. 13.6.1. Нелинейное отображение по критерию типа стресса.
Мера искажения, рассматриваемая ниже, была предложена Сэммоном [300) и является аналогом критерия «стресса», используемого в многомерном шкалировании (см. гл. 16) '. 1(Е(Х)) =Яе(Е, а) = 1 ( ~ 1лец~ ~ (Рц — ![ц)а1л 1 гм! ~г'с>! (13.16) где Оц — расстояние, например, евклидово, между г-м и 1-м объектами, т. е. !'-й и [сй строками матрицы; г[ц — евклидово расстояние между образами соответствующих объектов в д-мерном пространстве. Пусть Я„ Е, — д-мерные векторы координат образов объектов Х;, Хт при нелинейном отображении Х -+- Е. Расстояние г(гт будем считать евклидовым, т.
е. 4! (а, — ау). а=! Так как евклидово расстояние не меняется при повороте осей координат, то координаты образов объектов, которые будем искать с помощью минимизации, можно считать некоррелированными (ортогональными) и центрированными и ~~"„х!",! г!," = О, л ~ 1. Это ие меняет величины критерия, а г= ! результаты работы метода становятся более наглядными. ! В отличие от стресс-критернен (см. гл.
!6) а крнтерич Саммона значения Оц не меняются и процессе работы алгоритма. 371 Р ассмотрим сначала случай, когда а( О, Тогда критерий Я, с а( О более чувствителен к ошибкам искажения малых расстояний и менее сильно реагирует на искажение больших расстояний. Обычно рекомендуемое значение а == — 1. При а ) О лучше отображаются большие расстоя- ния и хуже малые, так как ошибки в передаче больших рас- стояний сильнее влияют на значение критерия. Обычно ре- зультаты, получаемые для а( О, лучше, чем для а ) О. Использование двухпараметрического критерия, предло- женного в (152! а,, если <(«)О<5 а„если <(«< /т<,, дает ббльшие возможности, поскольку естественно ожидать, что можно удачно отобразить конфигурацию в пространство меньшей размерности, если искажения носят такой харак- тер, что большие расстояния несколько увеличиваются, а малые несколько уменьшаются.
Это, например, может ока- заться полезным для дальнейшего использования преобра- зованной матрицы данных в задачах классификации, по- скольку малые расстояния характерны для объектов, при- надлежащих одному классу, а большие — разным. Поэтому можно ожидать, что степень разнесенности классов не слиш- ком уменьшиться в результате такого преобразования, а, возможно, и возрастет /!ля получения такого эффекта надо положить а, ( О и а,, ) О.
В качестве расстояния между точками Х< и Хт з исход- ном пространстве признаков х<'<, ..., х<м может быть исполь- зовано любое нз расстояний, перечисленных в гл. 5. Рассто- яние </«в пространстве образов, как уже указывалось, счи- тается евклидовым.
Поиск образов объектов, минимизирующий значение функционала (13.16) при нелинейном отображении, осу- ществляется, например, с помощью итерационной градиент- ной процедуры: <гэ (!+ 1) <и (1)+ ь(п х7 ()<и (!3.17) где т — номер шага итерации; г~~ — /-я координата (/ = = 1, </) образа <-го объекта (< = ! и) в </-мерном простран- стве; </<эЯ, — первая производная О, поз <; б < вычисляи< <О. <О л ется по формуле /<« = 1/2 ~с~ Юи. <=< Выражение для градиента Ч</ 97 приведено в 1111. Пусть (1, — значение критерия на 1-м шаге итерационной <<) 372 процедуры.
Остановка процедуры на бм шаге происходит, когда выполняется хотя бы одно из условий Я<',+» ( е„„, симально допустимое число итераций; аэьв — допустимая точность искажения конфигурации по критерию 9,. В качестве начального приближения Л<'> для итерационной процедуры могут использоваться, например, проекции объектов на главные компоненты. Размерность пространства образов >1, допустимое количество итераций („,,„и точность е„,р для градиентной процедуры считаются заданными. В работе (152) предлагается применять для минимизации (13.11) метод сопряженных градиентов, который может быть эффективнее, чем градиентная процедура (13.!2). 13.6.2. Быстрое нелинейное отображение с помощью опорных точек.