Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 3
Текст из файла (страница 3)
В сред"ней школе методы статистического анализа данных (хотя многие из нихочень просты и весьма полезны) не упоминаются вовсе, а в высшейшколе, даже в тех вузах и университетах, программы которых былипросто перегружены математикой, методам анализа данных отводилосьочень небольшое место. При этом обычно предметом изучения являютсяне столько эти методы, сколько формальные конструкции теории мно"жеств, теории меры, функционального анализа и теории вероятностей,которые, может быть, нужны для строгих доказательств, но абсолютноне способствуют освоению и бесполезны при применении этих методов.А в гуманитарных и медицинских вузах курсы анализа данных чаще все"го просто отсутствовали.
В результате даже самые простейшие методыстатистического анализа данных почти для всех отечественных руко"водителей и менеджеров остаются terra incognita1 . Для исправленияположения (что абсолютно необходимо для конкуренции с западнымбизнесом), по"видимому, потребуется значительное время.Таким образом, российские специалисты и менеджеры, исследова"тели и студенты, желающие применять методы анализа данных, нахо"1 Причины столь бедственного положения разнообразны, но одна из них вполнепонятна.
В стране, где важнейшие статистические данные, касающиеся экономики и сель"ского хозяйства, медицины и демографии, экологии и социологии тщательно скрывалисьс помощью режимов секретности, «форм доступа» и т.д. (даже от занимающихся этимивопросами специалистов), а зачастую и фальсифицировались, было вполне естественносделать как можно менее распространенными и методы анализа данных.11дятся в гораздо более затруднительном положении по сравнению сосвоими западными коллегами. Им приходится изучать многие аспек"ты прикладной статистики самостоятельно, при этом часто по книгам,рассчитанным не на прикладных специалистов, а на профессиональ"ных математиков (просто потому, что в основном именно такие книгиимеются в наличии). Кроме того, при работе с западным статистиче"ским пакетом им приходится читать объемистую и не всегда понятнонаписанную программную документацию, в которой много специальныхстатистических терминов, известных только профессиональным стати"стикам и отсутствующих в литературе на русском языке.
Получитьконсультацию при затруднениях негде — разве что у своих же коллег.Ясно, что преодолеть эти препятствия далеко не всем под силу.Советы читателям. Что же можно посоветовать тем, кто собира"ется изучать методы анализа данных или применять в своей деятельно"сти? Вот некоторые рекомендации.1. Читать популярные (рассчитанные на прикладных специалистов,а не профессиональных математиков) книги по анализу данных. Кромеданной книги, из книг на русском языке стоит отметить книги [87], [10],[16], [39], [109], [23], [35], [61], [44], [21], [95], [122].2.
Использовать (если нет очень веских причин поступать иначе)отечественные, а не западные статистические пакеты — они, как пра"вило, гораздо проще в использовании, снабжены понятной документа"цией и средствами интерпретации результатов. Особенно стоит поре"комендовать пакеты STADIA (универсальный статистический пакет) иЭВРИСТА (специализированный пакет для анализа временных рядов ирегрессионного анализа).3. Для статистических пакетов с хорошей документацией — читатьэту документацию. Очень часто она фактически является популярнымучебником, наглядно и неформально объясняющим применение средстванализа данных, в том числе и самых мощных многомерных методов.Особенно в этой связи можно рекомендовать документации пакетовSTADIA, ЭВРИСТА и SPSS.4.
Практически применять в ходе изучения анализа данных стати"стические пакеты. Очень часто это помогает понять назначение методаи его свойства лучше и быстрее, чем что"либо другое.Остается пожелать читателям этой (чрезвычайно, на мой взгляд,полезной и актуальной) книги успешно изучить изложенные в нейметоды и научиться применять эти и другие методы анализа данных всвоей практической деятельности.Виктор Фигурнов12 …Структура книги. Материал, включенный в эту книгу, можноусловно разбить на три части.
Первую из них составляют главы спервой по четвертую, а также частично пятая, десятая и пятнадцатаяглавы. Здесь изложены основные понятия теоретической и прикладной статистики, владение которыми необходимо для осмысленногоприменения методов статистического анализа данных. Мы обсуждаемпонятия случайной изменчивости, основные характеристики случайныхвеличин, наиболее распространенные статистические распределения,основы проверки статистических гипотез и оценивания параметров, атакже основы выборочных обследований и опросов.
Все изложениеведется не в строго формальном математическом ключе (который при"влекателен только для математиков), а на общепонятийном уровне, спривлечением многочисленных примеров.Вторая часть книги (главы 5—16) описывает статистические модели, наиболее часто используемые на практике для анализа данных.Сюда вошли анализ нормальных выборок, регрессионный и факторный(или дисперсионный) анализ, исследование связи признаков и таблицысопряженности, методы проверки согласия статистической модели сданными опыта, анализ временных рядов, а также краткий обзор дру"гих методов статистического анализа. При этом особое внимание мыуделили непараметрическим (свободным от распределения) методам,поскольку они имеют гораздо более широкие границы применимости(по сравнению с классическими гауссовскими), более устойчивы по от"ношению к отклонениям от моделей и лишь немного уступают в эффек"тивности наилучшим параметрическим методам, когда эти последниеможно применять.Примерно треть книги (ее составляют последние параграфы каждойглавы и три приложения) посвящена современным статистическим па"кетам и их использованию на персональных компьютерах.
В этой части,во"первых, показано, как рассмотренные в книге задачи можно решатьс помощью компьютера. В большей части книги для этого использу"ются популярные в России статистические пакеты: отечественный —STADIA и американский — SPSS. А решение задач анализа временныхрядов дополнительно показывается с помощью специализированногоотечественного пакета Эвриста. Мы полагаем, что эти примеры будутполезны всем читателям, в том числе и пользователям других стати"13стических пакетов.
Ведь входные данные и результаты статистическойобработки, как правило, мало зависят от конкретного пакета, посколькуопределяются общепринятыми традициями.В приложении 1 и 2 дан обзор состояния и основных характери"стик наиболее известных отечественных и зарубежных статистическихпакетов и сведения о фирмах, их распространяющих.Примеры. Все обсуждаемые в книге постановки задач мы старалисьиллюстрировать на примерах.
При этом на одном и том же примеремы показывали работу как непараметрических методов, так и их па"раметрических (гауссовских) аналогов. Это позволило нам провестинаглядное сравнение различных методов с точки зрения их примени"мости, устойчивости и т.п. Кроме того, чтобы помочь читателю лучшепонять алгоритмы обработки, мы разбирали применение статистическихметодов для одних и тех же данных как при ручных расчетах, так ипри использовании компьютера. Данные для примеров взяты из извест"ных монографий А.Хальда [107], Р.Готсданкера [33], М.Холлендера иД.А.Вулфа [115] и др., а также из практической работы авторов.Одной из особенностей этих примеров является сравнительно малыйобъем исходных данных. Это сделано не только из соображений облегче"ния демонстрации расчетов вручную.
Другая причина состоит в том, чтодля большинства прикладных исследований, особенно в гуманитарныхобластях, характерны именно небольшие объемы данных (исключениездесь составляют, пожалуй, только демография и отдельные областимедицинской статистики). А поскольку на подобных объемах выборокпрактически невозможна эффективная проверка гипотез об их распре"делении, а процедуры отбраковки грубых наблюдений бесполезны илималоэффективны, мы рассматривали в первую очередь непараметриче"ские статистические методы, т.е.