Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 2
Текст из файла (страница 2)
Приэтом нам постоянно приходится принимать в подобных неопределенных,связанных со многими случайностями ситуациях свои решения, иногдаочень важные. В быту или в несложном бизнесе мы можем приниматьтакие решения на основе здравого смысла, интуиции, предыдущего опы"та. Здесь мы часто можем сделать некий «запас прочности» на действиеслучая: скажем, выходить из дома на десять минут раньше, чтобы ужепочти наверняка не опаздывать на работу.Однако в более серьезном бизнесе, в условиях жесткой конкурен"ции, решения должны приниматься на основе тщательного анализа име"ющейся информации, быть обоснованными и доказуемыми.
Например,вряд ли банк или совет директоров крупной корпорации примет решение56о вложении денег в некоторый проект только потому, что он кому"то«представляется выгодным». Здесь потребуется тщательный расчет,связанный с прогнозами состояния рынка и рентабельности вложений,оценками возможных рисков и их последствий и т.д. При этом уже врядли возможно делать большой запас прочности «на всякий случай», иботогда Вас опередят конкуренты, умеющие считать лучше и, тем самым,принимать более правильные решения.Для решения задач, связанных с анализом данных при наличиислучайных и непредсказуемых воздействий, математиками и другимиисследователями (биологами, психологами, экономистами и т.д.) запоследние двести лет был выработан мощный и гибкий арсенал мето"дов, называемых в совокупности математической статистикой (а такжеприкладной статистикой или анализом данных).
Эти методы позволяютвыявлять закономерности на фоне случайностей, делать обоснованныевыводы и прогнозы, давать оценки вероятностей их выполнения илиневыполнения. Введению в эти методы и посвящена данная книга.Средства анализа данных на компьютерах. Широкому внедре"нию методов анализа данных в 60"х и 70"х годах нашего века немалоспособствовало появление компьютеров, а начиная с 80"х годов — пер"сональных компьютеров. Статистические программные пакеты сделалиметоды анализа данных более доступными и наглядными: теперь ужене требовалось вручную выполнять трудоемкие расчеты по сложнымформулам, строить таблицы и графики — всю эту черновую работу взялна себя компьютер, а человеку осталась главным образом творческаяработа: постановка задач, выбор методов их решения и интерпретациярезультатов.Результатом появления мощных и удобных пакетов для анализаданных на персональных компьютерах стало резкое расширение и из"менение круга потребителей методов анализа данных.
Если раньшеэти методы рассматривались главным образом как инструмент научныхисследований, то начиная с середины 80"х годов основными покупате"лями статистических пакетов (которые продаются в сотнях тысяч ко"пий ежегодно) стали уже не научные, а коммерческие организации, атакже правительственные и медицинские учреждения. Таким образом,методы анализа данных и статистические пакеты для компьютеров идругих видов ЭВМ стали на Западе типичным и общеупотребительныминструментом плановых, аналитических, маркетинговых отделов про"изводственных и торговых корпораций, банков и страховых компаний,правительственных и медицинских учреждений.
И даже представителимелкого бизнеса часто употребляют методы анализа данных либо само"стоятельно, либо обращаясь к услугам консультационных компаний.7Примеры. Приведем несколько примеров применения методовстатистического анализа данных в практических задачах.1. Рассмотрим достаточно простую, но часто встречающуюся задачу.Предположим, что Вы ввели важное нововведение: изменили системуоплаты труда, перешли на выпуск новой продукции, использовали новуютехнологию и т.п. Вам кажется, что это дало положительный эффект, нодействительно ли это так? А может быть этот кажущийся эффект опре"делен вовсе не Вашим нововведением, а естественной случайностью, иуже завтра Вы можете получить прямо противоположенный, но стольже случайный эффект? Для решения этой задачи надо сформировать дванабора чисел, каждый из которых содержит значения интересующегоВас показателя эффективности до и после нововведения.
Статистиче"ские критерии сравнения двух выборок покажут Вам, случайны илинеслучайны различия этих двух рядов чисел.2. Другая важная за"дача — прогнозированиебудущего поведения не"которого временного ря"да: изменения курса дол"лара, цен и спроса напродукцию или сырье ит.д. Для такого времен"ного ряда с помощью ста"тистического пакета про"Рис. 1.
График изменения объемаграмм подбирают некото"транспортных перевозок и его прогнозрое аналитическое урав"нение — строят регрессионную модель. Если мы предполагаем, что наинтересующий нас показатель влияют некоторые другие факторы, ихтоже можно включить в модель, предварительно (с помощью того жестатистического пакета) проверив существенность (значимость) этоговлияния. Затем на основе построенной модели можно сделать прогнози указать его точность (см.
рис. 1, а также гл. 11—14).3. Во многих технологических процессах необходимо систематиче"ски контролировать состояние процесса, чтобы вовремя вмешаться приотклонениях его от нормального режима и предотвратить тем самымпотери от выпуска некачественной продукции.
Для этого использу"ются статистические методы контроля качества, повсеместное и не"укоснительное применение которых во многом определило поразитель"ные успехи японской промышленности. Здесь мы наблюдаем замеча"тельный пример внедрения статистических методов в широкую прак"8тику. Японскими специ"алистами были отобранынаиболее простые прави"ла для оценивания дина"мики изменения качествапродукции и его нагляд"ного представления. Этиправила выражены сами"ми простейшими слова"ми, и японские рабочиеРис. 2. Контрольная карта изменения показателявыучивают их наизусть,качества с зоной допустимых пределов изменениякак молитву, после чегокаждый простой рабочий знает, при каких обстоятельствах производ"ственный процесс в порядке, когда надо быть настороже, а когда срочновызывать бригаду наладчиков (рис.
2).4. Еще одна инте"ресная и часто встреча"ющаяся задача связанас классификацией объ"ектов.Пусть, напри"мер, Вы являетесь на"чальником кредитного от"дела банка. Столкнув"шись с невозвратом кре"дитов, Вы решаете впредьРис. 3. С помощью кластерного анализа имеющаясявыдавать кредиты лишьсовокупность объектов разбита на три группыфирмам, которые «схо"со схожими свойствамижи» с теми, которые се"бя хорошо зарекомендовали, и не выдавать тем, которые «схожи» снеплательщиками или мошенниками. Для классификации фирм можнособрать показатели их деятельности (например, размер основных фон"дов, валюту баланса, вид деятельности, объем реализации и т.д.), ипровести кластерный анализ (в более сложных случаях — многомерноешкалирование, см.
гл. 16) этих данных. Во многих случаях имеющи"еся объекты удается сгруппировать в несколько групп (кластеров), иВы сможете увидеть, не принадлежит ли запрашивающая кредит фир"ма к группе неплательщиков (рис. 3). Аналогичный пример: пустьу Вас имеются данные о различных сортах пива, каждый из которыххарактеризуется множеством переменных: цвет, содержание алкоголя,других веществ, калорийность и т.п. Вы хотите закупать и продаватьнаиболее дешевое пиво, но близкое по совокупности свойств к очень9престижному и дорогому сорту. С помощью тех же методов Вы сможетерешить и эту задачу.Можно было бы привести еще множество других интересных при"меров применения методов анализа данных в самых разных областях:торговле и здравоохранении, образовании и управлении и т.д.Универсальные и специальные методы.
Следует подчеркнуть,что методы статистического анализа являются универсальными и мо"гут применяться в самых разных областях человеческой деятельности.Скажем, предсказание курса доллара и прогноз спроса на автомобилиделаются с помощью одних и тех же процедур. Поэтому требованиянеискушенных пользователей, чтобы им предоставили инструмент дляанализа данных именно в банковском деле или именно в медицине,редко бывают обоснованными. Такой инструмент мог бы быть создан,если бы решаемые этими пользователями задачи были исключительноспецифичны и не встречались ни в какой другой области. Как правило,это не так, и все нужные этим пользователям задачи могут быть реше"ны с помощью универсальных пакетов (подобно тому, как практическидля всех пользователей нужные им средства подготовки документовобеспечиваются универсальным редактором документов типа Word).Разумеется, нет правил без исключений.
Например, в Word труднона надлежащем уровне подготавливать документы с большим количе"ством формул (типа этой книги), и невозможно печатать ноты, поэтомув таких случаях используются специальные средства. Точно так жесуществуют и области человеческой деятельности, для которых требу"ются специфические статистические средства. Однако таких областейочень мало. По"видимому, наиболее важная из них — это страховые(актуарные) расчеты, используемые в своей деятельности страховымикомпаниями.Методы визуализации данных.
Чтобы решать, какие методы ана"лиза надо применить к имеющимся данным и насколько удовлетвори"тельны полученные результаты статистических процедур, нужно иметьвозможность наглядно представлять себе эти данные и результаты. По"этому практически все статистические пакеты обеспечивают широкийнабор средств визуализации данных: построение графиков, двух" и трех"мерных диаграмм, а часто и различные средства деловой графики. Всеэто помогает лучше представить обрабатываемые данные, получить об"щее представление об их особенностях и закономерностях.
Результатыприменения статистических процедур, как правило, представляются внаглядном графическом виде всегда, когда это возможно.10О предварительной подготовке для анализа данных. Хотя ста"тистические пакеты для персональных компьютеров резко упростилиприменение методов статистического анализа данных, все же для осмы"сленного их употребления пользователи должны обладать определеннойподготовкой: понимать, в каких ситуациях применимы различные стати"стические методы, знать, каковы их свойства, уметь интерпретироватьрезультаты.
На Западе такая подготовка обеспечивается обучениемосновам анализа данных практически всех студентов и менеджеров: впрограммы университетов, школ бизнеса, технических и других кол"леджей входят систематические курсы прикладной статистики. Раз"работаны и широко используются курсы основ теории вероятностей истатистики и для старших классов средней школы. В достатке имеетсяспециальная и популярная литература по анализу данных, ее всегдаможно найти в книжных магазинах, торгующих научно"техническойлитературой. А при затруднениях можно лично или по телефону обра"титься в одну из сотен консультационных фирм и получить там ква"лифицированную консультацию по постановкам задач, использованиюстатистических пакетов и т.д.К сожалению, в нашей стране ситуация совершенно другая.