Автореферат (1137006), страница 5
Текст из файла (страница 5)
Эти алгоритмы применимы для заполнения пропусковзначений и по категориальным, и по непрерывным признакам и реализованы вдоступных статистических пакетах.Труднее отобрать типичные алгоритмы из числа простых, так как, в отличиеот сложных, все они реализованы во многих статистических пакетах.
Поэтому вэксперимент были включены 3 из 5 общедоступных простых алгоритма,существенно различающиеся по своей сути: подстановка мер центральнойтенденции, HotDeck и регрессионное моделирование пропусков.Таким образом, по критериям сходств/различий, универсальности идоступности для использования в эксперимент из 19 были отобраны 5 алгоритмов,репрезентирующих все три выделенные типа.Для решения второй проблемы (формирования системы параметров длясравнения результатов рассматриваемых методов анализа данных) были отобраныпараметры, на наш взгляд, лучше всего отражающие качество и смысл результатоврассматриваемых методов анализа данных: описательная статистика: для номинальных шкал количество правильныхпредсказаний, мода и ККВ (коэффициент качественной вариации), дляпорядковых шкал – количество правильных предсказаний, медиана иквартильный размах, для интервальных шкал – среднее арифметическое идисперсия. факторный анализ – общий процент объясненной дисперсии и матрицафакторных нагрузок; регрессионный анализ с фиктивными переменными – коэффициентдетерминации (R2) и ошибка измерения зависимой переменной; однофакторный дисперсионный анализ – величина F-критерия и его уровеньзначимости;19 критерий «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровеньзначимости; коэффициенты корреляции Спирмена, и Пирсона-значение коэффициентакорреляции, и его уровень значимости.Результаты использования отдельных алгоритмов заполнения пропусков дляодномерных параметров, характеризующих результаты анализа данных (напримервеличины коэффициента качественной вариации, медианы, коэффициентдетерминации R2, значений коэффициентов корреляции их уровней значимости ит.д,) позволяет сравнивать введенный автором коэффициент эффективностизаполнения пропусков.,Где Aobserved —значениепараметра оценки работы метода анализа данных,полученное после применения метода к данным, восстановленным с помощьюоцениваемого алгоритма заполнения пропусков (с учетом количества последних), аAideal —значение того же параметра, полученное на эталонном массиве, состоящемиз полных наблюдений.Для многомерного параметра (у нас таковым была только матрицафакторных нагрузок, служащая оценкой результата работы факторного анализа)использовался другой подход.
В качестве критерия сравнения двух матрицфакторных нагрузок были задействованы меры близости между векторами –«развертками» двух сравниваемых матриц. В качестве таких мер были выбраныквадрат Евклидова расстояния и коэффициент корреляции Пирсона.Все предлагаемые критерии носят характер точечных статистическихоценок. Построение доверительных интервалов было бы весьма желательным, ноэто требует специальных математико-статистических разработок, выходящих зарамки настоящего исследования.Решение третьей проблемы (отсутствия методики сравнения двухалгоритмов заполнения пропусков) состояло в разработке требующейся методики,включившей в себя несколько шагов.Прежде всего, формировался некий эталонный массив, не имеющийпропущенных данных.
Результаты применения к нему рассматриваемых методованализа данных считались «правильными» - эталонными. Затем в данныхэталонного массива полностью случайным образом (чтобы, в соответствии сосказанным в главе 1, было возможно избавляться от пропусков именно с помощьюих искусственного заполнения) намеренно делались пропускиЗначения перечисленных выше параметроврезультатов применениярассматриваемых методов анализа данных, полученные на эталонном массиве20(составляющие базу эталонных результатов), сравнивались (на основе описанноговыше критерия) со значениями, полученными после применения методов анализаданных к массивам, в которых искусственно сделанные пропуски, заполнявшиесякаждым из сравниваемых алгоритмов.Во втором параграфе описана апробация разработанной методикисравнения эффективности алгоритмов заполнения пропусков, включающая 7этапов:1) формирование эталонного массива данных без пропусков;2) получениеэталонныхзначенийпараметровоценкиработырассматриваемых методов анализа данных;3) создание массивов с разным количеством искусственно созданныхполностью случайных пропусков;4) оценка на основе выбранных параметров смещений в результатах анализаданных, возникших за счет изменения эталонного массива путем искусственногосоздания в нем пропусков (при разном количестве последних);5) заполнение пропусков с помощью сравниваемых алгоритмов;6) оценка результатов применения методов анализа данных к массиву сискусственно заполненными пропусками и сравнение (с помощью введенногокритерия эффективности) этих результатов с эталонными;7) выбор для каждого сочетания количества пропусков и метода анализаданных наиболее эффективных алгоритмов заполнения пропусков.На первом этапе в исходном массиве данных (см.
раздел «Информационнаябаза исследования») из 935 было отобрано 717 абсолютно полных наблюдений, неимеющих ни единого пропуска по 89 содержательным переменным (признакам)(см. Приложение 1). Этот массив из 717 объектов был назван эталонным.На втором этапе для получения эталонных результатов рассматриваемыхметодов анализа данных, под каждый из них была поставлена и решена своясодержательная задача. Результаты оказалисьвполне осмысленнымисодержательно (см.
Приложение 2).На третьем этапе в эталонный массив было внесено 10, 20, 30, 40 и 50%полностью случайных пропусков по каждой переменной. Наблюдения, в которыхзначения каких-то переменных должны были удаляться, выбирались для каждойпеременной в отдельности с помощью генератора случайных чисел. В результатебыло получено 5 массивов разной степени полноты.На четвертом этапе для оценки изменений результатов анализа данных врезультате появления заданного количества пропусков на каждом из 5 массивовбыл повторен этап 2.
Затем в каждом случае оценивалось количество наблюдений21исключенных из анализа по причине неполноты, изменения значений полученныхкритериев и потери в их уровне значимости. (См. Приложении 3).На пятом этапе пропуски в каждом из 5 массивов разной степени полнотыбыли заполнены 5-ю сравниваемыми алгоритмами.В итоге было получено 25 массивов, состоящих из абсолютно полныхнаблюдений.На шестом этапе на каждом из 25 массивов были реализованы всерассматриваемые методы анализа данных. Полученные в каждом из 25 случаевзначения параметров результатов анализа данных с помощью соответствующегокритерия (коэффициента эффективности заполнения или меры близости между«развертками» матриц) сравнивались с соответствующими эталоннымизначениями.
Подробно результаты шестого этапа эксперимента представлены вПриложении 4.На седьмом этапе для каждого сочетания заданного количества пропусков иметода анализа данных выбирался наиболее эффективный алгоритм заполненияпропусков. Таковым считался алгоритм, при использовании которого былополучено минимальное значение коэффициента эффективности для одномерныхпараметров результатов анализа данных, или максимальное значение квадратаЕвклидова расстояния между векторами — «развертками» матриц факторныхнагрузок. Если для нескольких алгоритмов заполнения пропусков получалисьравные или очень близки значения данных критериев, то они признавалисьодинаково эффективными.В конце параграфаописываются итогисравнения с эталоннымирезультатов анализа данных, полученных после заполнения заданного количествапропусков каждым из 5 сравниваемых алгоритмов.Здесь проиллюстрируем итоги сравнений на примере одного из простейшихметодов анализа данных — поиска связи между двумя интервальными признакамис помощью коэффициента корреляции Пирсона.
Чтобы не только установитьналичие связи (по уровню значимости), но и сделать наиболее достоверные выводыо ее тесноте и направлении (по знаку и значению коэффициента), минимальноеколичество пропусков (10 %) следует заполнять при помощи регрессионногомоделирования или множественного заполнения; при 20–40 % пропусков наиболееэффективен ЕМ-алгоритм; при 50 % пропусков наряду с ЕМ-алгоритмомэффективно множественное заполнение. Получается, что множественноезаполнение эффективно в полярных ситуациях: минимальной и максимальнойстепени неполноты информации.22При использовании других алгоритмов выводы о наличии линейной связимогут соответствовать эталонной (истинной) ситуации, а выводы о направлении итесноте связи могут искажаться с большей вероятностью.Так как процедуры сравнения результатов для других методов анализаданных различаются только используемыми критериями сравнения, их подробноеописание мы сочли возможным здесь не приводить, а представить результаты ввиде сводной таблицы наиболее эффективных, по результатам эксперимента,алгоритмов заполнения пропусков и кратких выводов (таблица 1).Кроме того, установлено, что для некоторых методов анализа данных, вчастности, регрессионного и описательной статистики, использованиеопределенных алгоритмов заполнения пропусков приводит к существенномуискажению не только статистических, но и содержательных результатов.23Таблица 1Сводная таблица результатов методического эксперимента: алгоритмы заполненияпропусков наиболее эффективные при заданном количестве пропусков и методе анализаданных после их заполнения8Количество пропусков в данныхОценка среднейтенденции -типшкалыОценка разброса– тип шкалыОписательная статистика10%20%30%40%50%НоминальнаяHotDeck, МЗHotDeckHotDeckHotDeckHotDeckПорядковаяHotDeck, MeHotDeck,MeHotDeck,MeHotDeck,MeHotDeck,MeИнтервальнаяСр.арифм., ЕМ,МЗСр.арифм., ЕМ, МЗСр.арифм.,ЕМ, МЗЕМЕМНоминальнаяHotDeck, МЗHotDeckHotDeckHotDeckHotDeckПорядковаяEMEMИнтервальнаяВсерассмотренныеHotDeck,МЗЕМ, МЗHotDeck,МЗЕМ, МЗHotDeck,МЗЕМ, МЗHotDeck,МЗМЗ, ЕММЗ, ЕММЗ, ЕММЗ, ЕММЗ, ЕМФакторный анализаРегрессионный анализ сфиктивнымипеременнымицель использованияМетод анализа данныхНаиболее эффективный алгоритмзаполнения пропусковHotDeck,РегрессияHotDeck,РегрессияHotDeck,РегрессияHotDeck,РегрессияМЗ,HotDeck,РегрессияНе заполнять,либо HotDeck, EMHotDeck,ЕМHotDeck,ЕММЗМЗОднофакторный дисперсионныйанализНе заполнятьЕМЕМЕМЕМКритерий "Хи-квадрат"ЕМЕМЕМЕМЕМКоэффициент ранговойкорреляции СпирменаHotDeck,регрессияМеЕМЕМЕМКоэффициент корреляцииПирсонаРегрессия, МЗЕМЕМЕМЕМ, МЗПрогнозированиеПоисксвязиПеречисленные выше экспериментальные результаты нашлисвоеотражение в виде графических схем выбора алгоритма заполнения пропусков взависимости от их количества и метода анализа данных после заполнения.