Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 53
Текст из файла (страница 53)
[12], [36], [41]). Задание этой моделив пакете осуществляется в окне ввода данных и параметров процеду"ры, очень похожем на аналогичное окно разобранной нами процедурыCompute (см. п. 2.2к).Для эффективного использования большинства перечисленных про"цедур требуется определенная квалификация. Например, процедураLinear включает довольно много понятий, далеко выходящих за рамкиэтой книги и начальных курсов математической статистики. К такимпонятиям относятся Deleted Residual (удаленные остатки), балансировоч"ные статистики: Cook's distances (расстояние Кука), Leverage values (точкибалансировки); меры влияния: Standardized Df Beta и Df Fit; частные корре"ляции и т.п. Все эти понятия весьма полезны для выявления влиянияотдельных значений отклика и предикторов на оценки регрессионноймодели, но требуют отдельного обстоятельного разговора.
Поэтомумы не будем здесь разбирать процедуры регрессионного анализа SPSS,кроме упомянутой выше процедуры Curve Estimation.2649и между двумя последними тоже есть серьезная формальная разница,о чем будет сказано позже. Осознание подобных различий привело кпонятию шкалы измерений.!ƒ ƒ…Во многих практических задачах мы исследуем объекты, обладаю"щие несколькими (двумя или более) признаками, и хотим выяснить,насколько эти признаки связаны между собой. Например, у каждогочеловека есть возраст и место рождения, уровень образования и годовойдоход, пол и социальная принадлежность, и т.п. Вопрос состоит в том,можно ли по степени выраженности одного признака судить о выражен"ности другого, либо же эти признаки следует считать проявляющимисянезависимо (в вероятностном смысле). Ответы на такие вопросы мо"гут иметь значительную практическую ценность.
Например, если мыустановим, что признаки «профессия» и «политические убеждения» за"висимы, то окажется, что социологические опросы по предсказанию ре"зультатов парламентских выборов следует проводить с учетом профес"сиональной принадлежности опрашиваемых — это позволит уменьшитьразмер представительной (репрезентативной) выборки.9.1. ; ƒ…Измерения. Прежде чем говорить о зависимости или независи"мости признаков, надо эти признаки измерить.
Это может быть не"тривиальной задачей: действительно, как измерить «профессию», «по"литические убеждения» или «степень доверия»? Поэтому сначала мыобсудим вопрос о шкалах измерений, в которых измеряются различныепризнаки.«Измерить все, что измеримо, и сделать измеримым все, что таковымеще не является» — такую программу точному естествознанию наметилГ.Галилей еще в 17 веке.
Галилей ясно понимал, что измерения соста"вляют основу наших знаний о природе. Но чем дальше, тем большееместо измерения занимают и в науках о человеке и обществе, поставляятвердую основу для дальнейших исследований. Разумеется, в гумани"тарных науках измерения более сложны, чем в естественных. Дело нетолько в том, что трудным может быть процесс измерения. Сложностикасаются, в основном, истолкования результатов измерений.
Например,в психологии многое приходится измерять с помощью психологическихтестов, а по своему содержанию тестовый балл очевидно отличается отрезультатов измерения с помощью секундомера или линейки. Впрочем,265Непрерывные и дискретные шкалы. Начнем с того, что имеетсяобщего у всех видов измерений — их результатом всегда являетсячисло, будь то школьная оценка, тестовый балл, календарная дата,температура тела, расстояние на местности и т.д. Что же касается ихразличий, то первым бросается в глаза различие в «запасе» возможныхзначений при разных измерениях.
Так, школьные оценки (у нас) могутпринимать только 4 значения (2, 3, 4 и 5). Тестовым баллом можетбыть любое целое число (из того промежутка, который определяетсяколичеством вопросов и тем, как оцениваются ответы). Показателемтемпературы может быть любое действительное число (если отвлечьсяот пределов, которые задают физические соображения), и т.д. Итак,шкалы измерений могут иметь различные множества значений.
Сэтой позиции различают шкалы конечные и бесконечные, дискретныеи непрерывные.Запас допустимых операций в шкале. Но главные различия шкалне в этом. Важнее то, что по отношению к результатам измерений вразных шкалах осмысленными являются разные арифметические дей"ствия. Рассмотрим, например, измерение времени. Каждому моментувремени соответствует календарная дата, скажем, число t.
(В разныхкалендарных системах данному моменту времени могут соответствоватьразные числа, но сейчас это не имеет значения, поскольку далее мыбудем говорить о каком"нибудь одном календаре, хотя бы о привычномгригорианском.) Пусть t и s — даты двух событий, два числа. Нампонятно, что означает их разность (t − s) — это временной интервалмежду событиями. Следовательно, операция вычитания допустима вшкале измерения времени, потому что приводит к осмысленному ре"зультату. Можно также сравнить числа t и s по величине (по принципубольше–меньше) — таким путем мы узнаем, какое из событий про"изошло раньше, какое позже. Следовательно, в этой шкале операциясравнения чисел является допустимой.
Но в комбинациях типа t + s,2t, ts и т.д. мы никакого смысла не находим. Поэтому эти операции вданной шкале допустимыми не считаются.Сказанное об измерении времени полностью приложимо, например,к измерению температуры. Но в случае измерения длины (и другихразмеров) положение оказывается иным.
Пусть x и y — длины двухпредметов, скажем, труб или рельсов. Нам понятно, что означает нетолько x − y, но и 2x, x + y и многое другое. Например, x + y есть длина266трубы, которую можно получить, соединив трубы длины x и длины y, ит.д. В этой шкале запас допустимых операций особенно богат.Порядковые шкалы. Для изучения психических и физических ха"рактеристик человека, например, его способностей к умственной илифизической деятельности, нередко прибегают к специально организо"ванным пробам или испытаниям, называемыми тестами.
Результатомтакого теста является число, называемое тестовым баллом. При за"мене выбранного теста другим, предназначенным для измерения тойже характеристики, тестовый балл данного испытуемого, скорее всего,изменится. Но что"то при таком изменении должно сохраниться, ведьобъект измерения тот же, что и прежде. В частности, должно сохра"ниться соотношение между тестовыми баллами, которые получают вэтих условиях два испытуемых.
Если два теста измеряют одну и ту жехарактеристику (мы признаем, что это ситуация скорее воображаемая,чем реальная), тот из испытуемых, кто обладает этой характеристикойв большей мере, получит и большие тестовые баллы. Для тестовыхбаллов, как и для школьных оценок, осмысленными (допустимыми) ока"зываются только их сравнения. Операции вроде сложения и вычитаниядля этих шкал не имеют смысла. Например, нельзя сказать, что школь"ник, получивший четверку, знает предмет на единицу лучше, чем тот,кто получил тройку, ибо для знаний нет единицы измерения. Мы можемлишь сказать, что первый ученик знает предмет лучше, чем второй.Описанные шкалы, в которых существен лишь взаимный порядок,в котором следуют результаты измерений, а не их количественныезначения, часто называют порядковыми, или ординальными шкалами.Номинальные шкалы.
Еще одним важным видом шкал являют"ся номинальные шкалы. В них числа служат только для различенияотдельных возможностей, заменяя названия и имена. Никаких содержа"тельных соотношений, кроме x = y или x = y, между значениями в этихшкалах нет. Конечно, выбор чисел вместо названий или других способовидентификации не обязателен. Но бывает, что к нему приходится прибе"гать поневоле. Например, в полиграфии и текстильном деле используютсотни цветов и оттенков. Они должны быть стандартизованы и иметьотличительные обозначения. Существуют альбомы, содержащие такиецветовые образцы.
Указывать и называть какой"либо цвет можно толькос помощью его номера в таком альбоме, поскольку существующие вязыке названия цветов слишком малочисленны и неопределенны.Виды шкал. Мы уже ввели два вида шкал: порядковые и номи"нальные. Кроме того, мы будем рассматривать еще и количественныешкалы, такие как описанные выше шкалы времени, температуры, длины267и т.д. С помощью принципа, положенного в основу классификациишкал (т.е. объема допустимых операций над числами), мы могли быпроводить тонкие различия между шкалами. Однако с позиции стати"стики это пока не оправдано, так как статистические методы еще неимеют столь тонкой приспособленности. Они разработаны для большихгрупп шкал: количественных, порядковых и номинальных, которые мыи будем рассматривать далее.Замечание.