Диссертация (1137055), страница 8
Текст из файла (страница 8)
Выбрать номер страты из мультиномиального распределенияk ~ M(θ1, θ2,…, θK)2. Выбрать величину, моделирующую значение взвешенного критерия (значениясвертки критериев с весами) объекта из нормального распределения r ~ N(ck, σ)3. Сгенерировать M-1 координату из равномерного распределения:xj~U(сk (1–φ), сk(1+ φ) /wj), j=1…M-1.4. Вычислить последнюю координату из уравнения гиперплоскости:xM = (r - w1x1 + w2x2 + … + wM-1xM-1)/wM.5. Завершить, если сгенерировано N объектов, иначе перейти к п.
1.Таблицы 2.3-2.6 содержат различные варианты параметров генерацииданных, используемые в экспериментах. Варьируя параметры, можно гибкоуправлять геометрией стратифицированных данных.48Таблица 2.3. Варианты интенсивностей страт θ для генерации искусственныхданныхВарианты интенсивностей стратСтратаθ1θ2θ3θ410.330.500.600.7020.330.300.300.2530.330.200.100.05В таблице 2.4 приведены 4 варианта, различающихся по уровнюравномерности заполнения страт. В частности, вариант интенсивности θ1позволяет сгенерировать выборку, в которой примерно одинаковое количествообъектов в стратах.
Напротив, в случае θ4 большинство объектов 70%принадлежат третьей страте, а первой страте всего 5%.Таблица 2.4. Варианты весовых коэффициентов критериев для генерацииискусственных данныхВарианты весовых коэффициентов критериевКритерийw1w2w3w4w510.200.050.050.050.0520.200.100.050.050.0530.200.250.100.050.0540.200.300.300.250.0550.200.300.500.600.80В таблице 2.4 приводится 5 вариантов весов, отличающихся количествоммалозначимых критериев (с весом w=0.05). Таким образом, w1 задает страты содинаково значимыми критериями, в противоположность этому вариант w5 задаетстраты, в которых только один критерий имеет высокий вес.49Таблица 2.5.
Варианты значений размаха страт для генерации искусственныхданныхВарианты значений размаха стратφ1φ2φ3φ4φ50.010.050.10.21Очередной параметр – размах страт (таблица 2.5). При маленьком размахеφ1 генерируемые объекты практически не отклоняются от центра страты в еёплоскости, т.е. в одной и той же страте все объекты имеют близкие значениякритериев. А при больших значениях размаха одной и той же страте могутпринадлежатьобъектысмаленькимизначениямиоднихкритериев,скомпенсированными большими значениями других.Таблица 2.6. Варианты значений толщины страт для генерации искусственныхданныхВарианты значений толщины стратσ1σ2σ3σ40.010.050.10.2В таблице 2.6 приведены варианты значений толщины. При заданномзначении σ1 все объекты лежат почти в плоскости своей страты, т.е.
значения ихобобщенного критерия лишь незначительно отклоняются от значения уровнястраты, которой принадлежит генерируемый объект. С увеличением толщины,объекты все более отклоняются от плоскости страт и все более напоминаютоблака точек растянутые вдоль плоскости страты.Если не оговорено, какие именно параметры страт заданы при генерации, топо умолчанию следует считать значения равными значениям по умолчанию.Список установок по умолчанию генерации объектов приведен ниже в таблице2.7.50Таблица 2.7. Значения параметров генерации страт по умолчаниюПараметр генерации стратЗначение по умолчаниюЧисло объектов, NN = 300Число критериев, MM=5Число страт, KK =3Центры страт, cc=(0.3, 0.5, 0.8)Интенсивности страт, θθ1=(0.33, 0.33, 0.33)Веса критериев, ww1 = (0.2, 0.2, 0.2, 0.2, 0.2)Толщина страт, σσ1 = 0.01Размах страт, φφ5=12.2.3.
Предобработка реальных данныхВ реальных данных каждый критерий измеряется в собственной шкале,которая может быть никак не связана с шакалами измерения других критериев.Для приведения критериев к единой шкале мы использовали два наиболеепопулярных способа нормировки: стандартная нормировка, применяемая вмногокритериальных задачах (приведение значений критериев к диапазону [0,1]),и нормировка анализа данных (приведение значений к нулевому среднему иединичному стандартному отклонению). Первая из них вычисляется согласноформуле (16), а вторая согласно формуле (17): = − (. )(16) (. ) − (.
) = − ,(17)51где (. ) и (. ) максимальное и минимальное значение по j-мукритерию, а и среднее значение и стандартное отклонение значений j-гокритерия.2.2.4. Оценка качества результатов стратификацииПри генерации синтетических данных нам известно, из какой страты былсэмплировансинтетическихобъект,поэтомуданныхбудемдляоценкикачестваиспользоватьстратификацииточностьнавосстановлениясгенерированной стратификации, т. е. отношение числа объектов с правильноопределенным номером страты к общему числу объектов: =(18)На реальных данных заведомо неизвестно, какой страте принадлежитобъект, поэтому для определения качества стратификации будем использоватьстепень согласованности полученного разбиения с разбиениями по каждомуотдельно взятому критерию. Эта характеристика обычно используется присопоставлении различных алгоритмов ранжирования [32, 58]. Для измерениярасстояния между стратификациями (упорядоченными разбиениями) и возьмем нормированное расстояние Кемени-Снелла [58, 59].
Для стратификации, заданной на объектах 1 … , строится матрица:1, ( ) > ( ) = { 0, ( ) = ( )−1, ( ) < ( )(19)где () обозначает номер страты, которой принадлежит объект x. Расстояниевычисляется по формуле:521=∑ | − |2( − 1)(20),=12.3. Эксперименты по сравнительной оценке методов стратификации насинтетических данныхДля верификации метода были проведены следующие эксперименты:1) Валидация алгоритма ЛинСтрат. На выборках со случайно сгенерированнымивесовыми коэффициентами проверялось, насколько хорошо метод стратификациивоспроизводит веса, по которым были сгенерированы страты.2) Сравнение методов по точности воспроизведения стратификации.
Взависимости от различных параметров генерации страт: размерности, общегоколичества сгенерированных объектов, интенсивности, размаха и толщины страт.2.3.1. Валидация алгоритма ЛинСтрат на синтетических данныхПервый численный эксперимент был проведен для проверки корректностиработы алгоритма ЛинСтрат. При условии корректной работы алгоритм должен вточности восстанавливать параметры сгенерированных страт. В частностиинтересует, насколько хорошо могут быть восстановлены веса, задающиеориентацию страт. Для эксперимента были сгенерированы 10 выборок сразличными случайными весами критериев. Все параметры, кроме весов,задавались по умолчанию (см.
таблицу 2.7). Результаты эксперимента приведеныв таблице 2.8.Из таблицы 2.8 видно, что восстановленные с помощью алгоритмаЛинСтрат (LSQ) веса хорошо соответствуют весам, заданным при генерации. Этосвидетельствует о том, что алгоритм действительно восстанавливает данные ввиде линейных слоев.53Таблица 2.8. Валидация алгоритма LSQ для 10 вариантов весовыхкоэффициентов. Остальные параметры генерации заданы по умолчанию (таблица2.7). Показаны веса заданные при генерации и веса, найденные применениемалгоритма LSQМаксимальныйЗаданные значения весов критериевНайденные значения весов критериевмодульразницы0.0025, 0.0711, 0.0256, 0.0384, 0.86240.0025, 0.0711, 0.0256, 0.0384, 0.86240.00000.0415, 0.0031, 0.1788, 0.3098, 0.46690.0414, 0.0031, 0.1783, 0.3111, 0.46610.00130.0162, 0.0522, 0.0167, 0.3990, 0.51590.0162, 0.0523, 0.0166, 0.3989, 0.51600.00010.0585, 0.3248, 0.0261, 0.3984, 0.19220.0582, 0.3256, 0.0261, 0.3978, 0.19230.00080.0109, 0.1310, 0.0501, 0.4173, 0.39060.0109, 0.1310, 0.0501, 0.4174, 0.39060.00010.7034, 0.0048, 0.1375, 0.0659, 0.08840.7046, 0.0048, 0.1366, 0.0662, 0.08780.00120.1829, 0.2933, 0.1526, 0.0852, 0.28600.1826, 0.2949, 0.1523, 0.0846, 0.28550.00160.5665, 0.1376, 0.0436, 0.0845, 0.16780.5668, 0.1375, 0.0436, 0.0845, 0.16770.00030.2320, 0.1998, 0.1239, 0.3949, 0.04950.2330, 0.1991, 0.1235, 0.3948, 0.04950.00100.0766, 0.3610, 0.1984, 0.2734, 0.09070.0767, 0.3612, 0.1988, 0.2726, 0.09060.00082.3.2.
Влияние размерности данныхВ этом эксперименте исследовалась зависимость точности стратификацииот размерности сгенерированных данных. Для пяти значений размерности былисгенерированы линейные страты, остальные параметры генерации установленыпо умолчанию (см. таблицу 2.7). Для каждого значения размерности генерацияповторялась десять раз. Среднее значение и стандартное отклонение точностистратификации вычислялось по результатам десяти генераций.