Диссертация (1151117), страница 18
Текст из файла (страница 18)
Рисунок 26.Рисунок 26– Сводная таблица в MS SQL Server: Analysis ServicesКуб представляет собой многомерную структуру, состоящую из измеренийи мер. Для определения ячеек куба используются координаты пересечения108измерений куба [10, 75]. Классическое представление куба – реляционнаятаблица, представленная на рисунке 26.Данный куб был спроектирован по всем выгруженным университетам (814университетов, 42 критерияза временной период с 2004 по 2012 год) ипредназначен для удобной работы и обобщения большого массива данных [24,74].Выгрузка информации проводилась без средств автоматизации, посколькуинформациячереззапросыобрабатываласьнасервереThomsonReuters,расположенном в Америке.
В связи с этим возник вопрос верификацииполученной информации.Верификация полученной информации проводилась двумя способами:1 способ. По каждому выгруженному критерию проводилась сортировка поих значениям и строились графики по шкалированным значениям. При сильныхперепадах, как на рисунке 27, происходила повторная проверка выгруженнойинформации.Количество публикаций университетами в шкалах от 1до 1001201008060402001101201301401501601701УниверситетыРисунок 27 – Текущие показатели университетов - участников (отсортированы повозрастанию) программы 5 в 100 и МГУ им. М.В.
Ломоносова и СПбГУ2 способ. На основе выгруженных данных в соответствии с методологиейTHE WUR по 13 критериям был создан полный рейтинг THE WUR, итоговыеотклонения от опубликованного рейтинга не превысили 1 балла. Данная ошибка109обусловленатем,чтоданныенасайтеhttp://incites.isiknowledge.com/представлены с точностью до целого значения.В ходе данной верификации было обнаружено, что не все графики имеютнормальное стандартное распределение, о котором говорится в главе 1 даннойдиссертации (Приложение 4). В ходе ответа на вопросы, компания InCitesдействительно подтвердила информацию, что перевод значений в баллыпроисходит не всегда по стандартному нормальному распределению.
Иногда длятого, чтобы подчеркнуть доминирование наиболее сильных университетов,используется экспоненциальное распределение [63].Таким образом, компания–создатель базы данных дополнительно вноситсубъективизм в формировании рейтингов журнала TimesHigherEducation. В связис этим в дальнейшем в ходе исследований для снижение влияния субъективныхфакторов будут использованы первоначальные данные по университетам безприменения шкалированных показателей, разработанных InCites.Из всего массива данных используется информация о деятельности 692университетов, у которых значение показателя Papers за 2012 год (Общееколичество публикаций согласно базе данных научного цитирования WOSза 2012год) превосходит 150 публикаций.
Введение порогового уровня публикационнойактивностисотрудниковуниверситетаобусловленотребованиямикминимальному количеству публикаций со стороны составителей международныхрейтингов [31].3.2.Методоценкиглобальнойконкурентоспособностиимногокритериального ранжирования ведущих университетов на основесамоорганизующейся модели Кохонена и метода k-meansВ данной части диссертационной работы реализован алгоритм построенияНСКохонена,припомощиинструментальногосредствааналитическойплатформы Deductor [52], которая ориентирована на решение задач анализалюбых данных. В качестве альтернативного метода ранжирования университетоввыбран k-means, как один из наиболее популярных методов кластеризации [90].110Важным отличием между методами является то , что в алгоритме Кохонена всенейроны упорядочены в некоторую структуру (двумерная сетка), а при обучениимодифицируется соседи нейрона «победителя».
Таким образом, вектора, схожие висходном пространстве, при помощи алгоритма Кохонена оказываются рядом ина двухмерной карте [29].Самоорганизующиеся НС КохоненаВ основе алгоритма построения самоорганизующейся НС Кохонена лежитмодель, разработанная Тайво Кохонененом в 1982 году [85, 86]. Полученнаямодель способна решать задачи классификации и кластеризации [87].Построение описанной модели кластеризации НС Кохонена происходит в дваэтапа:НапервомэтапепроисходитобучениеНСипостроениесамоорганизующейся карты признаков (self organizing map — SOM).
Это один изметодов кластеризации, который позволяет создать представление в видедвухмерных карт, где расстоянию между векторами в многомерном пространствесоответствует расстояние между объектами в двухмерной карте. Значенияотображаются на двухмерной карте различными цветами и оттенками, врезультате записи в исходной выборке распределяются по ячейкам [27, 48].На втором этапе при помощи алгоритма G-means ячейки объединяются вкластеры. Детальное описание работы алгоритма можно найти в источнике [81].Настройка параметров модели. Программный продукт Deductor позволяетустанавливать уровень значимости для отдельных входных переменных, которыйучитывается при нахождении расстояния между объектами [103.
Таким образом,расстояние между векторами признаков и рассчитывается по формуле (3.1):(, ) = √∑=1( ( − ))100(3.1) – установленное значение значимости. В нашем случае, для уменьшениясубъективизма не был отмечен флаг «установить значимость поля», поэтому равен 100.111Нормализация значений полей. После того как определены входные ивыходныеполя,следуетнормализацияданных.Нормализацияданныхнеобходима для корректной работы алгоритма. Программа Deductor предлагаетразличные варианты нормализации, однако, наиболее подходящей для нашейвыборки является линейная нормализация, поскольку она используется длянепрерывных числовых полей и позволяет преобразовывать дискретные данные кнабору чисел, лежащих в диапазоне от 0 до 1 в соответствии с формулой (3.2):∗ =− −∗ ( − ) + (3.2) – значение нормализуемого показателя; – минимальное значение выборки; – максимальное значение выборки; и это значения итогового диапазоначисел [,] , в нашем случае = 0, = 1.Размерность карты.
По умолчанию система предлагает размерность карты12х16 ячеек, форма ячеек шестиугольная, узлы её представлены искусственныминейронами. При проведении кластеризации настройки по умолчанию неменялись.Параметры обучения. Перед началом обучения необходимо выбрать одиниз трех способов инициирования начальных весов: Случайные значения – начальным весам присваиваются случайныевеличины; Из обучающегося множества – начальным весам присваиваются случайновыбранные значения из обучающей выборки; Из собственных векторов (используется данный параметр) – начальные весаинициируются значениями векторов, линейно упорядоченных вдольлинейногоподпространства,проходящегомеждудвумяглавнымисобственными векторами исходного набора данных.Функция соседства.
Функция ℎ() – называется функция соседстванейронов, которая представляет собой функцию от времени и расстояния междунейроном победителем и соседними нейронами в сетке. Данная функцияпозволяет определить, какие нейроны наиболее близки к «победителю».112Для определения функции соседства обычно применяется следующие функции(3.3) и (3.4):Ступенчатая, ≤ ()ℎ(, ) = {0, > ()(3.3)или Гауссова функция соседстваℎ(, ) = 222 ()−(3.4)В результате проведения данного исследования, при использовании Гаусовойфункции расстояния, был получен лучший результат.Обучение.
Сам процесс обучения происходит путем последовательнойкоррекции векторов. Из исходной выборки данных выбирается случайнымобразом вектор данных, затем алгоритм ищет наиболее похожие на него векторакоэффициентов нейронов. Победителем становится нейрон, наиболее похожий навектор входов. Под степенью сходства понимается расстояние между векторами,которое можно вычислить по следующей формуле (3.5) [6]:‖ − ‖ = min {‖ − ‖}(3.5)где с – обозначается нейрон победитель.При обнаружении нейрона-победителя происходит корректировка весовНС. Соответственно, вектора, описывающие сам нейрон-победитель и егососедей, перемещаются в направлении входного вектора. Схематично данныйпроцесс проиллюстрирован на рисунке 28 для двухмерного вектора.113Рисунок 28 – Перемещение двухмерных векторов в направлении входноговектора [96]После этого происходит модификация весовых коэффициентов в соответствии сформулой (3.6): ( + 1) = () + ℎ () ∗ [() − ()](3.6)где – номер эпохи (дискретное время).
При этом вектор () выбираетсяслучайно из обучающей выборки на итерации [6].Скорость обучения. По умолчанию система использует в начале скоростьобучения 0.3, в конце 0.005. При проведении кластеризации настройки поумолчанию не менялись. Для того, чтобы определить скорость обучения текущейэпохи можно воспользоваться формулой (3.7): = ∗( )(3.7)где – скорость скорости обучения в начале, – скорость скоростиобучения в конце, – текущая эпох, а – максимальное количество эпох(задается в параметрах остановки обучения).Радиус обучения. По умолчанию система использует в начале обучения 3, вконце 0.1. При проведении кластеризации настройки по умолчанию не менялись.Длятого,чтобыопределитьвоспользоваться формулой (3.8):радиусобучениятекущейэпохиможно114 = ∗( )(3.8)где – радиусы обучения в начале, – радиусы обучения в конце, –текущая эпох, а – максимальное количество эпох [6].Проведенноеисследованиесиспользованиеманалитическихиэкспериментальных подходов в Главе 2 позволило выбрать 8 критериев из общейвыгрузки, которые наиболее полно характеризуют различные направлениядеятельности университетов.