Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 94
Текст из файла (страница 94)
Усилиями ведущих россий"ских специалистов в последние годы появились книги по современнымметодам обработки экономических данных [1], [9], [68] и др. Изло"женные в них методы регрессионного и многомерного анализа конечноприменимы не только в экономике, но не всякому специалисту"медику,социологу, психологу придет в голову мысль читать книгу с названием«Эконометрика» для обработки своих данных.Пример. На наш взгляд, даже среди специалистов невелико число тех,кто может сразу ответить, для чего предназначены тесты Шапиро"Уилкса иЛильефорса (они представлены в разделе Разведочный анализ базового модуляпакета SPSS и в разделе Описательная статистика пакета STATISTICA/w).Между тем, речь идет о модификации критерия Колмогорова"Смирнова дляпроверки нормальности распределения в случае сложной гипотезы, когда не"известные параметры распределения оцениваются по выборке (см.
главу 10).Именно эти тесты необходимо использовать в большинстве задач регрессионно"го и факторного анализа и анализа временных рядов, чтобы на основе анализаостатков сделать выводы об адекватности модели и возможности применениявыбранного метода.пакетах моделях на 30 страницах страдает неизбежной математизациейтекста и частыми недоговорками.
Впрочем, ориентация этих пакетов наавтоматический подбор наилучшей модели отчасти может оправдыватьподобную документацию.1.8. "…… … … ›Наряду с документацией, задачу освоения пакета помогает решатьвстроенный гипертекстовый справочник. И здесь среда Windows предо"ставляет прекрасные возможности. В текст подсказки можно включатьспециальные символы, формулы и графики, открывать дополнитель"ные окна и т.д., позволяет сделать встроенный справочник значитель"но более удобным и информативным.
Встроенными гипертекстовымисправочниками по статистическим методам анализа данных оснащеныпрактически все упоминаемые нами пакеты. При этом в ряде пакетовприсутствует режим помощи выбора метода анализа данных.Таким образом, документация пакета и «горячая линия» фирм рас"пространителей — это практически единственные источники информа"ции о работе незнакомых статистических процедур. Следует отметить,что у многих известных западных пакетов в последние два"три года тачасть документации, в которой описываются конкретные статистиче"ские процедуры (назначение процедур, подготовка данных, параметры,применяемые формулы, интерпретация результатов и т.д.), заметноулучшилась.
Это особенно важно для отечественных пользователей.Документация отечественных статистических пакетов по свое"му содержанию может не уступать своим лучшим зарубежным аналогам(пакеты STADIA, Эвриста, Мезозавр). В документации этих пакетовдано описание назначения процедур, большинство необходимых мате"матических определений и, главное, содержательный разбор примеров.Эти документации стремятся к максимальной простоте изложения мате"риала (иногда при этом приходится жертвовать строгостью изложения).Но не следует путать документацию пакета с учебником по прикладнойстатистике.Хорошо оформленная документация пакетов ОЛИМП:СтатЭксперти FORECAST EXPERT, на наш взгляд, слишком компактна.
Попыткаизложить основные понятия и сведения о рассматриваемых в этих479Рис. П1.3. Оглавление гипертекстового справочника пакета STADIA 6.0Примеры. Проиллюстрируем выбор метода анализа данных в пакете STA"DIA 6.0. Пусть мы хотим проанализировать связанные данные, измеренные впорядковой шкале (подобные данные весьма распространены в социологическихи психологических исследованиях). В оглавлении справочника (рис. П1.3) на"ходим раздел Какой метод выбрать?.
Содержание окна этого раздела приведенона рис. П1.4. Здесь пользователю предлагается уточнить тип своих данных.Выбираем Связанные выборки. (О типах статистических данных можно прочесть,щелкнув надпись Статистические данные.) Выведенная страница справочника Свя'480занные выборки говорит, что данные этого типа могут быть измерены в различныхшкалах: номинальной, порядковой и количественной, и просит сделать даль"нейшие уточнения. В результате подобной цепочки уточнений будет указанконкретный метод анализа Непараметрические коэффициенты корреляции и подробноописан порядок работы и результаты этой процедуры (см.
рис. П1.5).Рис. П1.5. Описание подобранной статистической процедуры в пакете STADIA 6.0Рис. П1.4. Окно подбора метода анализа данных в пакете STADIA 6.0Довольно похоже устроена процедура подбора метода анализа данных в па"кете SPSS. Правда, на некотором этапе выбора пользователю будет предложеноподряд прочитать назначение 15 различных типов процедур анализа данных ивыбрать из них требуемый. Весьма подробный и обстоятельный встроенныйсправочник пакета STATISTICA/w, на наш взгляд, неудачно структурирован.Так, например, в его разделе выбора метода анализа данных нам не удалосьобнаружить совета по поиску методов оценки связи данных, измеренных впорядковой шкале.
(Как выяснилось, справочник относит этот тип данных кContinuos Variable (непрерывным или количественным переменным), что вводит взаблуждение исследователя.)Другой тип экспертной поддержки в статистических пакетах за"ключается в автоматическом комментировании программой полученныхрезультатов. Так, пакет STADIA для большинства статистических про"цедур выдает заключения типа: принять или отвергнуть нулевую гипо"тезу, адекватна или не адекватна подобранная модель. Наиболее мощноиз известных нам пакетов такая поддержка реализована в последнихверсиях пакета STATGRAPHICS.
Процедура StatAdvisor этого пакетапосле обработки ваших данных генерирует текст отчета, в которомделает содержательные выводы из полученных результатов.481Таким образом, большинство современных статистических пакетовстремится стать доступнее и удобнее, совершенствуя свои докумен"тации, гипертекстовые справочники, экспертные системы, обучающиепрограммы и т.п. И это дает результат — статистические пакеты ис"пользуются все более широким кругом пользователей, они все большеприменяются для обучения математической и прикладной статистике ввузах как на Западе, так и в России.1.9.
& Наилучший выбор статистического пакета для анализа данных зави"сит от характера решаемых задач, объема и специфики обрабатываемыхданных, квалификации пользователей, имеющегося оборудования и т.д.Процедуру выбора лучше всего начать с телефонного звонка в фир"му производителя и распространителя. (Информация о том, где можноприобрести наиболее известные статистические пакеты, приведена вПриложении 3.) При этом Вы не только получите необходимую инфор"мацию, но и проверите уровень работы «горячей линии». Последнеевесьма важно, так как найти ответы на вопросы, возникшие в ходеработы, бывает совсем не просто. (Наша практика показывает, чтопользователи «пиратских» копий программ порой годами не могут найтибез документации ответа на вопрос, как задать и сохранить модель не"482линейной регрессии в STATGRAPHICS или ввести сезонный фактор вмодель временного ряда в SPSS.) Причины этого явления мы подробнорассматривали в п.
П1.7.У большинства упоминаемых нами статистических пакетов суще"ствуют демонстрационные версии. Некоторые из них (STADIA 6.0,Олимп:СтатЭксперт, SYSTAT) являются работающими программами ссильными ограничениями на объемы обрабатываемых данных и отклю"чением некоторых сервисных функций.Для пользователей, имеющих дело со сверхбольшими объемамиданных или узкоспециальными методами анализа, пока нет альтернати"вы использованию профессиональных западных пакетов. Среди интер"активных пакетов такого рода наибольшими возможностями обладаетпакет SAS.Объемы обрабатываемых данных в пакете SPSS ограничиваютсятолько величиной памяти вашего компьютера.
Этот пакет также весьмаудобен для работы с данными сложной структуры, когда необходимоделать их всевозможные срезы, как, например, в комплексном социо"логическом исследовании.При создания собственной системы обработки данных можно вос"пользоваться библиотекой подпрограмм IMSL, содержащей сотни тща"тельно и квалифицированно составленных программ на Фортране и Си,которые Вы сможете встроить в собственную разработку. БиблиотекаIMSL содержит также и программы по многим другим разделам чи"сленного анализа (линейная алгебра, оптимизация, дифференциальныеуравнения и т.д.).Работа с отечественными пакетами требует менее высокой квали"фикации пользователей, да и стоят эти пакеты существенно дешевле.Пакеты анализа временных рядов. Учитывая особую популярность этихпакетов на отечественном рынке, сделаем ряд дополнительных замечаний поих выбору.
Эти пакеты можно разбить на две группы. В первой из них (Fore"cast Expert, Олимп:СтатЭксперт) делается упор на автоматический или почтиавтоматический подбор модели временного ряда из заданного класса моделей.Это позволяет пользователю не вдумываться в результаты предварительногоанализа и не требует от него специальных знаний из области временных рядов.Подобный режим работы полезен как для экспресс"анализа, так и для сравне"ния с результатами подбора модели вручную. Однако этот способ обработкиможет приводить к излишне усложненным моделям, а в некоторых случаях —и к прямым ошибкам.Пакеты второй группы (Эвриста, Мезозавр) тоже содержат алгоритмы под"бора оптимальных моделей. Но их главной чертой является широкий наборинструментов предварительного и окончательного анализа данных и возмож"ность их пошагового применения.