Диссертация (1137055), страница 16
Текст из файла (страница 16)
Блок-схем функции run_test выполнения эксперимента насинтетических данных4.4. Сравнение программных реализаций алгоритмов по вычислительнойпроизводительностиСравнение по вычислительной сложности методов стратификации иранжирования в зависимости от входных данных и некоторых других параметровприведено в таблице 4.4, число страт мы считаем фиксированным и в104большинстве прикладных задач небольшим, поэтому для простоты расчетов этопараметр из анализа исключим.Таблица 4.4. Сравнение методов стратификации и ранжирования повычислительной сложности. N – размер выборки, M – число критериев, f(M) –оценкавычислительнойсложностирешениязадачиквадратичногопрограммирования в зависимости от метода, L – размер популяции дляэволюционного метода ЛинСтрат, T – число итераций для метода ЛинСтратМетод стратификацииАббревиатураОценка сложностиЛинСтрат с использованиемLSQO((NM2+f(M))T)квадратичного программированияЛинСтрат на основе эволюционнойLSO(NMLT)минимизацииСтратификация с помощьюBCO(N2M)правила Борда (Borda count)Метод ABC- классификации наоснове линейной оптимизацииLWOO(N3)весов (Linear weights optimization)Ранжирование на основесобственного вектора (AuthorityARO(NM2)ranking)Стратификация объединениемPSO(N2M)границ Парето (Paretostrat)В таблице 4.5 приведены результаты экспериментов по сравнениювычислительной эффективности алгоритмов стратификации.
Для экспериментаформировались выборки с помощью генератора стратифицированных данных, всепараметры генерации выбирались по умолчанию (см. таблицу 2.7) при этомварьировались размер и размерность сгенерированной выборки и замерялосьвремя работы каждого алгоритма.105Таблица 4.5. Результаты экспериментов по сравнению вычислительнойэффективности алгоритмов. Длительность работы в секундахРазмерностьM=5M =10M= 20M = 50МетодN=1008.31±0.576.18±0.120.01±0.003.01±0.330.01±0.000.04±0.0111.62±0.346.17±0.080.01±0.002.30±0.110.01±0.000.37±0.0013.42±0.196.10±0.100.01±0.001.55±0.130.00±0.000.04±0.0028.03±0.575.71±0.200.01±0.001.90±0.070.01±0.000.04±0.00LSQLSBCLWOARPSLSQLSBCLWOARPSLSQLSBCLWOARPSLSQLSBCLWOARPSN=5009.61±0.8616.45±0.340.03±0.000.01±0.001.01±0.0413.01±1.5618.23±2.410.04±0.010.01±0.001.06±0.3815.26±1.0117.38±1.650.08±0.010.01±0.001.02±0.0927.20±1.1214.61±1.140.17±0.020.01±0.001.12±0.09Размер выборкиN=100011.64±0.6432.10±0.910.08±0.0010.02±0.064.58±0.3213.69±0.6731.33±1.790.14±0.010.02±0.0014.15±0.1816.78±1.4032.37±3.590.27±0.010.02±0.004.50±0.3226.35±1.4623.57±0.630.58±0.030.01±0.004.20±0.26N=500011.59±0.611.37±0.0320.14±0.0213.46±0.072.54±0.020.12±0.0215.78±0.224.91±0.020.09±0.0226.44±0.6312.08±0.030.06±0.01-N=1000012.45±0.415.52±0.110.28±0.0315.10±0.0610.00±0.050.22±0.0217.96±0.4319.70±0.030.17±0.0133.75±2.3852.01±2.670.12±0.01-Как видно из таблицы 4.5, предложенный алгоритм ЛинСтрат хорошомасштабируется по размеру выборки и плохо масштабируется по числукритериев.
Как видно из таблицы наиболее вычислительно эффективным являетсяметод AR, показавший высокую производительность как при увеличенииразмерности так и при и увеличении размера выборки.Выводы по главе 4В этой главе рассмотрены комплексы программ реализующие методыформирования стратификации, схему генерации синтетических страт, а такжеэкспериментыдлясравненияметодовстратификациииранжирования.Программы написаны в среде Matlab и организованы в виде набора инструментовили библиотеки функций. В главе описываются особенности реализации функций106из библиотеки и приводятся примеры их использования. Программный кодимеется в открытом доступе.
Поэтому библиотека методов стратификации можетбытьсвободноиспользованаислужитьполезныминструментариемисследователя или аналитика для решения прикладных задач принятия решений,ранжирования и стратификации.107ЗаключениеВдиссертационноймногокритериальнойработелинейнойпредложенастратификации.математическаяЭтамодельмодельсостоитвпредставлении страт параллельными гиперплоскостями. Предложен численныйметод линейной стратификации на основе идентификации параметров моделилинейных страт по эмпирическим данным. Этом метод был сравнен с методомглавных компонент, который в определенном смысле является похожим,поскольку отыскивается гиперплоскость оптимальным образом «объясняющая»структуру данных.
Показаны случаи в которых оба метода приводят кодинаковым решениям, и случаи в которых решения различны.Метод линейной стратификации реализован в алгоритме стратификации сиспользованиемквадратичногоминимизации.Предложенапрограммированияметодикаичередующейсягенерациисинтетическихстратифицированных данных для проведения вычислительных экспериментов посравнению предложенного метода стратификации с рядом популярных методов.По результатам вычислительных экспериментов на синтетических данных былапроизведена валидация и показана эффективность предложенного метода посравнению с другими в подавляющем большинстве случаев.
Сам по себе подход ктестированию алгоритмов на синтетических данных с контролируемымипараметрами генерации, широко распространенный в кластер анализе, являетсяинновациейдлямногокритериальногоранжирования.Крометого, былопроведено экспериментальное сравнение методов стратификации в задачеранжирования научных журналов и стран по библиометрическим показателям, вкотором предложенный метод также показал свое преимущество.Был разработан комплекс программ реализующий методы формированиястратификации, генератор синтетических страт, а также эксперименты длясравнения методов стратификации и ранжирования. Комплекс программ былреализован в среде Matlab и организован в виде библиотеки функций, кодбиблиотеки открыт для свободного использования и может быть использован108наряду с другими аналитическими инструментами для поддержки принятиярешений и анализа данных.
Этот комплекс программ был применен для решениязадачи приоритизации базовых станций в компании ПАО «МТС». Применениеразработки позволило достичь экономического эффекта для компании за счетболее эффективного распределения базовых станций по приоритетам.Предложенный метод использовался в задаче агрегирования показателейнаучного вклада ученого. Была собрана эмпирическая тестовая база из 30ведущих мировых ученых в области анализа данных и машинного обучения ипоказатели их научного вклада по 3 аспектам: цитирования, авторитетности иуровню результата. Предложенный метод стратификации позволил построитьагрегированные показатели внутри аспектов. На основе этих агрегатов былополучено соотношения между тремя рассматриваемыми компонентами научноговклада ученого.Резюмируя вышесказанное, основными результатами работы можно считатьследующие:1.Предложена математическая модель многокритериальной линейнойстратификации.2.Разработан численный метод формирования многокритериальнойлинейной стратификации.3.Разработан метод генерации линейных стратифицированных данных.4.Разработан комплекс программ для численного решения задачистратификации, генерации синтетических данных и проведения вычислительныхэкспериментов.5.Модель,методикомплекспрограммверифицированынасинтетических и реальных данных.6.Метод и комплекс программ, примененные для оценки разныхаспектов научного вклада на выборке ведущих специалистов в областимашинного обучения и анализа данных, привели к согласованным результатам.7.Метод и комплексы программ были применены для задачиприоритиации базовых станций в компании ПАО «МТС».109Список литературы1.De Smet Y., Guzmán L.
M. Towards multicriteria clustering: An extensionof the k-means algorithm // European Journal of Operational Research. – 2004. – Vol.158. – №. 2. – P. 390-398.2.TheCompleteUniversityLeaguehttp://www.thecompleteuniversityguide.co.uk/leaguetables/Guide.(датаURL:обращения:25.10.2014).3.QSWorldUniversityRankings–Methodology.URL:https://www.topuniversities.com/university-rankings (дата обращения: 16.02.2017).4.Liebowitz S.J., Palmer J.P.
Assessing the relative impacts of economicsjournals // Journal of Economic Literature. – 1984. – Vol. 22. – №. 1. – P. 77-88.5.SCImago Journal & Country Rank. URL: http://www.scimagojr.com (датаобращения: 14.02.2014).6.Gonzalez Pereira B., Guerrero Bote V., Moya Anegon F. A new approachto the metric of journals scientific prestige: The SJR indicator // Journal of Informetrics.– 2010. – P. 379-391.7.Cornillier F., Charles V.
Measuring the attractiveness of academicjournals: A direct influence aggregation model // Operations Research Letters. – 2015. –Vol. 43. – №. 2. – P. 172-176.8.Ng W.L. A simple classifier for multiple criteria ABC analysis // EuropeanJournal of Operational Research. – 2007. – Vol. 177. – №. 1. – P. 344-353.9.Ramanathan R. ABC inventory classification with multiple-criteria usingweighted linear optimization // Computers & Operations Research.