Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 91
Текст из файла (страница 91)
Координаты точек истолковываются как значениянеких характеристик исходных объектов, которые и объясняют их свой"ства или взаимоотношения.В случае удачного шкалирования, когда точки полученного про"странства представляют объекты без серьезных погрешностей и раз"мерность этого пространства невелика (равна, скажем, двум или трем),исследователь получает возможность представить изучаемую совокуп"ность объектов наглядно. Часто это помогает по"новому осознать про"блему, увидеть ее новые черты и особенности, либо осознать те скры"тые признаки, которые и определяют видимые свойства объектов илиих взаимоотношения.Типичный пример использования методов многомерного шкалиро"вания — изучение политических деятелей.
Здесь исходными даннымидля анализа могут служить экспертные оценки сходства или различиявзглядов политических деятелей по некоторому набору вопросов. Длядепутатов парламента такими данными могут служить результаты го"лосований. И очень часто с помощью методов многомерного шкали"рования удается объяснить исходные данные с помощью несколькиххарактеристик взглядов политических деятелей, которые и описывают(в основном) их поведение.
Например, может оказаться, что результа"ты голосований депутатов в парламенте в основном объясняются всегодвумя"тремя характеристиками. Исследователь может условно их на"звать, скажем, «приверженность к либеральной или к государственноймодели экономики» и «прозападная или почвенническая ориентирован"ность», или как"то еще. Результаты подобных исследований иногдапубликуются в газетах.Часто в качестве исходных данных для шкалирования используютсяне сами оценки степени сходства объектов, а результаты их ранжиро"вания.
Соответствующие методы шкалирования называются неметрическими. Они были разработаны для решения проблем психологии:здесь исходными данными часто служат суждения человека (как ис"пытуемого либо как эксперта), поэтому их количественные значенияносят в значительной мере условный характер. Чтобы избавиться отэтой условности, и прибегают к ранжированию. Сейчас неметрическоемногомерное шкалирование широко применяется и для других данных.Подробнее о методах многомерного шкалирования можно прочесть вкнигах [59], [87], [89].46616.7. $ … ›…Из многочисленных специализированных разделов статистики мырассмотрим один — методы контроля качества.
Эти методы, как следуетиз их названия, предназначены для контроля качества выпускаемойпродукции с целью выявления нарушений и узких мест в организациипроизводства и в технологических процессах, ведущих к снижениюкачества продукции. Повсеместное применение научно обоснованныхметодов контроля качества явилось немаловажным фактором успеховстран — лидеров мировой экономики, в особенности Японии.В отличие от большинства описанных выше многомерных методовметоды контроля качества не требуют трудоемких вычислений — ониисключительно просты и наглядны. Целью этих методов может быть:•••получение наглядного представления о выборочном распределении зна"чения некоторого параметра в выпускаемой продукции и сравнениеэтого распределения с границами допуска (гистограмма качества);наглядное выделение наиболее важных факторов, влияющих на каче"ство продукции (диаграмма Парето);выявление необычных отклонений в параметрах выпускаемой продук"ции и отделения случайных отклонений от неслучайных и требующихвмешательства тенденций (контрольные карты).Простота, наглядность и эффективность статистических методовконтроля качества сделали возможным и оправданным их повсеместное(вплоть до мастеров, а иногда и отдельных рабочих) применение впередовых странах.
Более подробно об этих методах можно прочестьв книгах [73], [90].16.8. ƒ… В пакетах STADIA и SPSS представлены все перечисленные вышеметоды, хотя реализации их в этих пакетах отличаются. Например, длякластерного анализа и шкалирования обеспечивается различный наборвозможных расстояний, стратегий объединения объектов в кластеры иметодов шкалирования.В документации и во встроенном справочнике системы STADIAчитатель сможет найти дополнительные пояснения по назначению иметодике применения статистических методов, описанных в этой главе.4671 …ƒ ……… …… '1.1.
"…Для успешного функционирования в условиях жесткой конкурен"ции западные фирмы, банки, страховые компании и т.д. нуждаются втщательном анализе имеющейся информации и получении из нее на"дежных и обоснованных выводов. Поэтому потребность в средствах ста"тистического анализа данных на Западе очень велика, что и послужилопричиной для развития рынка статистических программ, на которомпредлагаются более тысячи программ. Различные по объему и качествуреализованной статистики, области возможного применения, пользова"тельскому интерфейсу, цене, требованиям к оборудованию и т.п., ониотражают многообразие потребностей обработки данных в различныхобластях человеческой деятельности.Даже справочники, содержащие очень краткие описания пакетов,составляют солидные тома (см., например, [128], [143]).
В этих справоч"никах содержатся описания назначения пакетов, требования к техниче"ским характеристикам компьютера, дополнительные сервисные возмож"ности пакетов, цены и адреса фирм"поставщиков. Информацию о новыхверсиях пакетов можно найти в популярных компьютерных журналах игазетах типа «PC Magazine», «PC World», «BYTE», «PC Week» и др. Не"которые рекомендации по выбору статистических пакетов периодическипубликует «Мир ПК» ([26], [60], [69], [112], [46]).Число статистических пакетов, получивших распространение в Рос"сии, тоже достаточно велико (несколько десятков) и спрос на нихпродолжает возрастать.
Из зарубежных пакетов это STATGRAPHICS,SPSS, SYSTAT, BMDP, SAS, CSS, STATISTICA, S"plus, и др. (кста"ти, большинство из этих пакетов занимают по качеству лидирующиеместа в мире). Из отечественных можно назвать такие пакеты, какSTADIA, ЭВРИСТА, МЕЗОЗАВР, ОЛИМП:СтатЭксперт, Статистик"Консультант, САНИ, КЛАСС"МАСТЕР и др. Проблема выбора наиболееподходящего пакета для данной категории пользователей, круга решае"мых задач, типа и возможностей компьютеров и т.д., весьма непроста.468Ниже мы расскажем о принципах выбора статистических пакетови о характеристиках пакетов, используемых в России.
В приложении2 приводится краткая информация о текущих версиях основных стати"стических пакетов и фирмах их распространяющих.1.2. " Основную часть имеющихся статистических пакетов составляютспециализированные пакеты и пакеты общего назначения.Специализированные пакеты обычно содержат методы из одного"двух разделов статистики или методы, используемые в конкретной пред"метной области (контроль качества промышленной продукции, расчетстраховых сумм и т.д.). Чаще всего встречаются пакеты для анализа вре"менных рядов (например, Эвриста, МЕЗОЗАВР, ОЛИМП:СтатЭксперт,Forecast Expert), регрессионного и факторного анализа, кластерногоанализа, многомерного шкалирования. Обычно такие пакеты содержатвесьма полный набор традиционных методов в своей области, а ино"гда включают также и оригинальные методы и алгоритмы, созданныеразработчиками пакета.
Как правило, пакет и его документация ори"ентированы на специалистов, хорошо знакомых с соответствующимиметодами. Применять такие пакеты целесообразно в тех случаях, когдатребуется систематически решать задачи из той области, для которойпредназначен специализированный пакет, а возможностей пакетов об"щего назначения недостаточно.Пакеты общего назначения. Особое место на рынке занимаюттак называемые статистические пакеты общего назначения.
От"сутствие прямой ориентации на специфическую предметную область,широкий диапазон статистических методов, дружелюбный интерфейспользователя привлекает в них не только начинающих пользователей,но и специалистов. Универсальность этих пакетов особенно полезна:•••на начальных этапах обработки, когда речь идет о подборестатистической модели или метода анализа данных;когда поведение статистических данных выходит за рамки ис"пользовавшейся ранее модели;в процессе обучения основам статистики.Именно пакеты общего назначения составляют большинство прода"ваемых на рынке статистических программ.
К таким пакетам относятсясистемы STADIA и SPSS, рассмотренные в этой книге, а также пакетыSTATISTICA, STATGRAPHICS, S"plus, SAS и др.469Неполные пакеты общего назначения. Некоторое хождение на рынкестатистических программ (особенно в нашей стране) имеют пакеты, которыеможно было бы назвать неполными пакетами общего назначения. Чаще всегоони содержат простейшие методы описательной статистики и некоторые методыиз двух"трех других разделов статистики. Как правило, это либо недоработан"ные первые версии вновь создаваемых пакетов, либо вынесенные на рынокпрограммы для внутреннего, узкоспециализированного использования. Послед"ние, кроме ограниченности статистических методов, обычно характеризуютсянедоработанными интерфейсами, скудностью сервисных возможностей.