Диссертация (1151117), страница 21
Текст из файла (страница 21)
М.В. Ломоносова и СПбГУ, характеризующиесязначениямипоказателей в 2018 году из таблицы 16, были отнесены к 4-му и 5-му кластерамсоответственно, которые составляют университеты, занимающие «средние»позиции. Таким образом, в данном случае, в отличие от 1-го варианта, гдепоказатели ведущих мировых университетов предполагались неизменными до2018 года, значения показателей деятельности МГУ им.
М.В. Ломоносова,указанные в программе развития, недостаточны для перемещения в группулидирующих университетов к 2020 году [106].3.5.Метод определения пороговых значений ключевых показателейдеятельностиуниверситетадляотнесенияегокглобальноконкурентоспособным университетамДля того, чтобы описать ведущий кластер воспользуемся деревьямирешений.
Критерии попадания университетов в 1-й лидирующий кластер127самоорганизующейся карты, представленной на рисунке 31, могут бытьсформированы в результате построения «Дерева решений» на базе широкоиспользуемогоалгоритмапостроениядеревьевклассификацииC4.5,разработанного Джоном Квинланом [78, 93]. Однако, платформа Deductorиспользует модифицированную версию алгоритма для ускорения работыпрограммы следующим способом:1.
Данные упорядочиваются по возрастанию.2. Исходное множество разбивается на два 1 и . На первой итерации вмножество 1 относится единственная верхняя запись, все остальные значенияотносятся ко второму множеству . На следующей итерации в множество 1перемещается верхнее значение из множества .3. Вычисляется индекс для всех возможных комбинаций разбиений, однако, выбирается тот у которого минимальный согласно формулам(3.16) и (3.17).() = 1 − ∑=1 () =1(1 ) +(3.16)2( )(3.17)где – вероятность что во множестве T находится i пример; N – общее числопримеров;Остановка работы алгоритма. Алгоритм останавливает дальнейшее разбиение вследующих случаях:1.
Число нераспознанных примеров меньше заданного значения;2. Количество примеров в узле является достаточным;3. Примеры одного класса содержатся в узле.Настройка узла. В настройке узле есть параметр, отвечающий за минимальноеколичество примеров в узле. Данный параметр используется во времяпостроения дерева и отсекает такие варианты, при которых в узле находится < , где = количество примеров в узле, а = минимальноеколичество примеров заданное пользователем. Для отсечения узлов используетсяуровень доверия. Данный параметр служит для оптимизации дерева (подробнее128об его использовании можно узнать в [93] с.
37-43). Основная идея заключается впоиске для каждого узла дополнительного количества ошибок по следующемформуле (3.18) [77]: =0, при = 0,, при = 0 и < 10−6 ,1 ∗ (1 − ) , при ≠ 0 и < 10−6 ,11∗ ∗ (1 − ) + ( − ∗ (1 − )) , при ≠ 0 и 10−6 ≤ < 0,9999,(3.18) + ( ∗ − ), при = 0 и 10−6 ≤ < 0,9999∗+− , при 0,999 ≤ < ( − 0,5),0,67 ∗ ( − ), при ≥ 0,9999 и ≥ ( − 0,5),{где = + 0,5 ++ (∗ (( + 0,5) ∗ (1 −+0,5)+4количество ошибок в узле, N – количество записей в узле, = ∗ = при E = 1, )) ,E–Уровень доверия100%,- коэффициент, рассчитанный следующимобразом [6, 79]:= (−1 + ( − ) ∗− −1 −−1)(3.19)где значения ,−1 , и −1 из Таблицы 17 выбираются так, чтобыони соответствовали одному из условий:1. −1 < ≤ , если 0< i < 8;2.
= 1, если ≤ 0 ;3. = 8, если ≥ 8 .Таблица 17.Бета распределение с параметрами α = 1, β = 1i01234567800,0010,0050,010,050,100,200,401,004,03,092,582,331,561,280,840,250,00129Для нахождения ожидаемого количества ошибок (3.20 используют суммуошибок полученных при построении дерева и дополнительных ошибок [6]: = + (3.20)Отсечение. Очень часто при построении деревьев решенийони получаютсясложными и большими, именно поэтому применяется механизмотсеченияветвей.
Данный механизм служит для того, чтобы уменьшить само дерево, приэтом основное правило - при отсечении не должна возрастать величина ошибки[6].Поддержка. Численное количество примеров, отвечающих заданным условиям,называют поддержкой. В процентном соотношение рассчитывается (3.21):(, ) = ()∗ 100%(3.21)N(A) – общее количество условий А; N(A) – количество записей;Достоверность.
Для того, чтобы определить, насколько правило является верноинтерпретируемым, используется достоверность – процентное соотношениеколичество верно распознанных примеров к общему количеству примеров,отвечающихданномуусловию.Например,длянахождениярезультатадостоверности правила «если условие А, то класс Х» используют следующуюформулу (3.22) [6]:(, ) = (,) ()∗ 100%(3.22)где (, ) - количество примеров, c условия А, при этом принадлежит к классуХ;N(A) – общее количество условий А как принадлежащих к классу Х, так и непринадлежащих.Для формализации критериев отнесения университета к тому или иномукластеру было построено дерево решений7, содержащее 53 узла, на основекоторого сформировано всего 25 правил, из которых 7 правил определяютусловия попадания в 1-ий кластер и приведены ниже на рисунке 32.7Выбранные параметры обучения дерева решений позволяют корректно распознать 91%примеров из обучающего множества и 80% - из тестового130Рисунок 32 – Правила вхождения в ведущий кластер на основе деревьев решений1.
необходимо очень высокое значение показателя Papers>6669, то есть,общее количество публикаций авторов, аффилированных с университетом,согласно базе данных научного цитирования WOS за год должно бытьбольше 6669 единиц;2. необходимо очень высокое значение Normalized citation impact - countryadj>1,43, что определяет требование к высокому качеству публикаций, таккак среднее число цитирований на одну публикацию, умноженное напоправочный коэффициент для страны, должно быть значительно вышеединицы;3. необходимо одновременное выполнение следующих условий: Papers>6566 единиц за год131 Papersintco-author / Papers (доля публикаций в международномсоавторстве) >0,345;4.
необходимо одновременное выполнение следующих условий: Papers int co-author / Papers>0,345 Doctoraldegree / Acadstaff (отношение числа присвоенных научныхстепеней в университете за год к численности академического штата)>0,5255. необходимо одновременное выполнение следующих условий: Papers int co-author / Papers>0,445 Doctoraldegree / Acadstaff>0,435;6. необходимо одновременное выполнение следующих условий: Papers int co-author / Papers>0,445 Resincome / Acadstaff (объем доходов университета от НИОКР в расчетена единицу академического штата) >366 466USD;7.
необходимо одновременное выполнение следующих условий: Papers int co-author / Papers>0,345 Doctoraldegree / Acadstaff>0,355 Papers>3634 единиц за год;НаиболееблизкимицелевымиориентирамидляпопаданияМГУ им. М.В. Ломоносова в 1-ий кластер являются сочетания, представленные в6-ом и 7-ом правилах. В соответствии с 6-ым правилом МГУ им.
М.В.Ломоносова требуется увеличение объема доходов от НИОКР в расчете наединицу академического штата на 50 тыс. USD относительно плановыхпоказателей на 2018 год. Согласно 7-му правилу единственным показателем,который должен быть увеличен по сравнению со значением, полученным наоснове программы развития, является Doctoral degree / Acad staff (отношениечисла присвоенных научных степеней за год к численности академическогоштата), причем необходимо увеличение менее, чем на 0,03.132Оценкизначений показателейдеятельностиСПбГУ на 2018год,приведенные в таблице 16, не позволяют рассчитывать на перемещение СПбГУ в1-ий кластер.
В данном случае наиболее близким к целевому значению,указанному во 2-ом правиле, является показатель цитируемости публикаций, но ион более чем в полтора раза меньше требуемого значения8.Необходимость кардинального увеличения данного показателя для СПбГУстановится еще более очевидной, если сравнить данные по СПбГУ и данные поКалифорнийскому университету в Лос-Анджелесе (UCLA) по той доле доходов,которые получают эти университеты от внешних научных грантов. Так, присравнительноодинаковойчисленностиакадемическогоштатаэтихуниверситетов, общий объем финансирования UCLA в 2011 году от внешнихнаучных грантов (прежде всего из National Science Foundation) составил 982миллиона долларов США (т.е. 18% от всех доходов университета в год), а вСПбГУ доходы от внешних научных грантов (РФФИ, РГНФ и др.) за тот жепериод составили только 250 млн. рублей (т.е.
1,7% от объема всех доходовуниверситета в год) [67].Таким образом, применение метода кластеризации, опирающегося напостроение самоорганизующихся карт Кохонена, и использование предпосылки онеизменных показателях ведущих мировых университетов до 2018 годапозволило получить следующие результаты: целевые значения показателей деятельности, указанные в программеразвития МГУ им. М.В. Ломоносова на 2018 год, позволили переместитьсяуниверситету в кластер, сформированный мировыми лидерами, которыерегулярно входят в топ-100 международных рейтингов; программа развития СПбГУ с точки зрения попадания в топ-100 мировыхуниверситетов содержит недостаточные значения показателей деятельностии не включает ряд показателей, оказывающих влияние на итогиформирования международных рейтингов.
Следствием указанных причин8Примечание. Оценка показателя СПбГУ Normalizedcitationimpact - countryadj на 2018 годсоставляет 0,87, в то время, как целевое значение для попадания в 3-ий кластер - 1,43.133сталоотсутствиесущественныхизмененийпозицииСПбГУприиспользовании планируемых показателей на 2018 год в рамках построенныхмоделей, СПбГУ остается в кластере с университетами, занимающими«средние позиции».Было предложено усложнение модели кластеризации за счет дополнения ееусловием о наличии тенденции к изменению показателей деятельности ведущихмировых университетов, которая может быть аппроксимирована линейнойфункцией [23]. В рамках описанной модификации модели программы развитияМГУ им.
М.В. Ломоносова и СПбГУ не позволяют российским университетампретендовать на места в ведущем кластере. Тем не менее, на основе моделисформированы следующие рекомендации по совершенствованию показателейдеятельности МГУ им. М.В. Ломоносова, которые могут позволить переместитьсяв первую сотню мировых университетов: увеличениеобъемадоходовотНИОКРврасчетенаединицуакадемического штата на 50 тыс. USD относительно плановых показателейна 2018 год; увеличение показателя Doctoral degree / Acad staff (отношение числаприсвоенных научных степеней за год к численности академическогоштата) на 0,03.Сопоставление метода кластеризации на основе карт Кохонена с другимиизвестными подходами к группировке объектов показало его эффективность иширокие возможности применения, в том числе для изучения особенностейразвитияуниверситетов,образовательнымиикоторыенаучнымиорганизационную структуру [26].являютсяучреждениямимногофункциональнымииимеютсложную134ЗАКЛЮЧЕНИЕВ диссертацииразработанкомплексматематическихметодовинструментальных средств на основе искусственных нейронных сетейидляпроведения многокритериального ранжирования и прогнозирования показателейдеятельности ведущих университетов в мировых рейтингах.