Диссертация (1137055), страница 10
Текст из файла (страница 10)
Экспериментальное сравнение методов стратификации и ранжированияна реальных данныхВ этом разделе описаны реальные данные и результаты сравнения методовстратификации на этих данных.602.4.1. Библиометрические показатели публикационной активностиРеальныеданныебыливзятыспортала[5],разработанногоисследовательской группой SCImago [60]. Этот портал содержит в открытомдоступе библиометрические показатели журналов и стран, полученные на основеданных из базы цитирований Scopus [61]. Данные, представленные на сайте могутбыть использованы для анализа публикационной активности и расчетабиблиометрических характеристик как журналов, так и стран. Сайт scimagoявляется авторитетным источником, используемым в ряде работ, см., например,[62], [63], [64] или [65].Рассмотрим библиометрические показатели научных журналов из разделаArtificial Intelligence за 2012 год.
Всего 118 журналов. В качестве критериевоценкипрестижажурналабыливзятытринаиболеепопулярныхбиблиометрических показателя:1.Индекс SJR (Scientific Journal Ranking). Этот индекс разработанавторами портала [5]. Его значение отражает среднее число посещений журналанеким условным читателем, совершающим случайные переходы по ссылкам надокументы журналов. По сути он развивает идею лежащую в основе известногоалгоритма пейджранк [31].2.Индекс Хирша [66]. Количество документов (h) журнала за 2012,которые получили, по меньшей мере h цитирований (H).3.числоИмпакт-фактор журнала (I) [67]. Вычисляется как I = A/B, где: A —цитированийвтечение2012годастатей,опубликованныхврассматриваемом журнале за 2010—2011; B — число статей, опубликованных вданном журнале в 2010-2011 годах.Также с вышеупомянутого портала были взяты данные о публикационнойактивности 102 стран за 2012 год, в той же предметной области – искусственныйинтеллект (Artificial Intelligence).
Критерии, используемые для оценки стран,следующие:1.Общее число документов опубликованных за 2012 (D).61Число цитируемых документов, опубликованных в 2012 году. Под2.цитируемыми документами понимаются статьи, обзоры и публикации наконференциях (CD).Общее количество цитирований 2012 году полученных документами,3.опубликованными в этом же году (С).Самоцитирование документов, опубликованных в рассматриваемой4.стране в 2012 (country self-citations) (SC).Среднее число цитирований в 2012 документов, опубликованных в5.этом году (CPD).H-индекс.
Количество документов (h) за 2012, который получили, по6.меньшей мере, h цитирований (H).2.4.2. Сравнение алгоритмов стратификации на данных обиблиометрических показателях академических журналов и стран мираВ этом разделе приведены результаты экспериментов по стратификации нареальных данных, описанных в п. 2.4.1. Сначала формируется стратификация 118научных журналов по библиометрическим показателям. Затем формируетсястратификация102странтакжепобиблиометрическимпоказателям.Рассматривается адекватность полученных ранжирований и согласованностьразбиений, полученных в результате многокритериальной стратификацииразличными методами и однокритериальных стратификаций по отдельно взятымкритериям.Веса критериев полученных при стратификации приведены в таблице 2.14.Получилось, что для обоих типов нормировки наименьший вес получил индексХирша.
В таблице 2.15 приведены значения парных расстояний Кемени-Снелламежду стратификациями журналов, полученными различными методами длякаждой из двух нормировок критериев: стандартной (16) и статистической (17).Значения парных расстояний показывают степень согласованности между собойдля разбиений, получаемых различными методами. Наиболее согласованные62стратификации получились для методов линейной стратификации LSQ и LS.Более того, при стандартной нормировке стратификации, полученные этимидвумя методами, в точности совпадают. Это вполне объяснимо, поскольку воснове обоих методов лежит одна и та же оптимизационная задача, различиезаключается лишь в способе ее решения. Также близкие стратификациипродемонстрировали методы на основе линейной оптимизации весов LWO иранжирование по влиянию AR.Таблица 2.14.
Веса критериев важности научных журналов, найденные методомлинейной стратификации LSQВеса критериев, найденные при стратификацииКритерийСтандартная нормировка Статистическая нормировка(16)(17)Индекс SJR0.38820.4670Индекс Хирша, H0.14220.1394Импакт фактор, I0.46850.3936Таблица 2.15. Парные расстояния Кемени-Снелла между упорядоченнымиразбиениями журналов, найденными методами многокритериальнойстратификации, для стандартной и статистической нормировок значенийкритериевМетодыLSQLSBCLWOARPSСтандартная нормировка (16)LSQ0.13730.05980.04610.21360LS0.13730.05980.04610.2136BC0.16020.12510.3184LWO0.05980.2076AR0.1988PSСтатистическая нормировка (17)LSQ0.13730.09940.15810.21360.0080LS0.13880.10540.16300.2156BC0.19460.25920.3184LWO0.15930.1710AR0.1499PS-63Представляетинтересстепеньсогласованностимногокритериальнойстратификации с однокритериальными стратификациями по каждому отдельномупоказателю. Для определения степени согласованности использовалось среднеерасстояние Кемени-Снелла от стратификации, полученной тем или инымметодом, до стратификации по каждому из критериев, полученной применениемметода к-средних к значениям данного критерия.
Результаты расчетов показаны втаблице 2.16. Как видно, наиболее согласованное разбиение для обоих типовнормировки получается методами линейной стратификации LS и LSQ. Метод ARполучил согласованное разбиение только при стандартной нормировке.Таблица 2.16. Средние значения расстояний Кемени-Снелла междуупорядоченными разбиениями журналов по отдельным критериям и разбиениями,найденными методами многокритериальной стратификации, для стандартной истатистической нормировки значений критериевМетодLSQLSBCLWOARPSСреднее расстояние.(Стандартная0.1198 0.1198 0.1714 0.1317 0.1194 0.2340нормировка)Среднее расстояние.(Статистическая0.1199 0.1185 0.1714 0.1486 0.2024 0.2340нормировка)Такжеинтереспредставляет,насколькохорошосогласованноеранжирование получилось для каждого из методов.
Результат вычисления парныхкорреляций Кендалла в таблице 2.17.64Таблица 2.17. Средние значения ранговых корреляций Кендалла междуупорядоченными разбиениями журналов по отдельным критериям и разбиениями,найденными методами многокритериальной стратификации, для стандартной истатистической нормировкиМетодLSQLSBCLWOARPSСреднее расстояние.(Стандартная0.780.780.770.760.770.79нормировка)Среднее расстояние.(Статистическая0.780.780.770.490.720.79нормировка)Для обеих нормировок предложенный нами алгоритм LSQ сформировалодинаковые стратификации.
При этом наибольшие веса получили индекс SJR иимпакт-фактор. То есть по этим двум критериям можно получить хорошостратифицированное множество журналов. В то же время индекс Хирша получилнебольшой вес. В первую страту вошли 6 журналов, во вторую 42 и в третью 70.Впервойстратеоказалисьжурналы,высокоценимыевсообществеисследователей:1.IEEE Transactions on Pattern Analysis and Machine Intelligence (UnitedStates).2.International Journal of Computer Vision (Netherland).3.Foundations and Trends in Machine Learning (United States).4.ACM Transactions on Intelligent Systems and Technology (United States).5.IEEE Transactions on Evolutionary Computation (United States).6.IEEE Transactions on Fuzzy Systems (United States).Несколько неожиданным является попадание в эту группу относительнонового журнала Foundations and Trends in Machine Learning. Этот журналпубликуетвысококачественныемонографическиеобзорыпоактуальнымпроблемам.Аналогичные эксперименты были проведены и для данных по странам.
Вэтомэкспериментененулевойвесполучиликритерииколичество65самоцитирований, число цитирований на документ и индекс Хирша, см. таблицу2.18.Таблица 2.18. Веса критериев оценки публикационной активности стран,найденные методом линейной стратификации LSQВеса критериев, найденные пристратификацииКритерийСтандартнаяСтатистическаянормировканормировка (17)(16)Число документов (D)00Число цитируемых документов (CD)00Количество цитирований (С)00Количество самоцитирований (SC)0.62520.5178Цитирований на документ (CPD)0.04680.0683Индекс Хирша (H)0.32810.4139Таблица 2.19 содержит значения парных расстояний Кемени-Снелламежду упорядоченными разбиениями, полученными различными методамистратификации.
Для этих данных методы стратификации на основе минимизациикритерия линейных страт LS и LSQ дают одинаковые разбиения для обоих типовнормировки. Более того, вышеупомянутые методы приводят к разбиениямнаиболее согласованным с разбиениями по каждому отдельному критерию 2.20.66Таблица 2.19.
Парные расстояния Кемени-Снелла между упорядоченнымиразбиениями стран, найденными методами многокритериальной стратификации,для стандартной и статистической нормировок значений критериевМетодыLSQLSBCLWOARPSСтандартная нормировка (16)LSQ00.23440.21610.11690.1546LS0.23440.21610.11690.1546BC0.21290.20630.3238LWO0.13550.1911AR0.1366PSСтатистическая нормировка (17)LSQ00.23440.10360.03730.1546LS0.23440.10360.03730.1546BC0.28310.23190.3238LWO0.10400.0786AR0.1523PSТаблица 2.20. Средние значения расстояний Кемени-Снелла междуупорядоченными разбиениями стран по отдельным критериям и разбиениями,найденными методами многокритериальной стратификации, для стандартной истатистической нормировки значений критериевМетодLSQLSBCLWOARPSСреднее расстояние.(Стандартная0.1036 0.1036 0.2607 0.2145 0.1629 0.1765нормировка)Среднее расстояние.(Статистическая0.1036 0.1036 0.2607 0.1659 0.1172 0.1765нормировка)Аналогично, для стран были посчитана средняя корреляция Кендалла длямногокритериальных ранжирований и отдельных критериев.
Результат в таблице2.21.67Таблица 2.21. Средние значения ранговых корреляций Кендалла междуупорядоченными разбиениями стран по отдельным критериям и разбиениями,найденными методами многокритериальной стратификации, для стандартной истатистической нормировкиМетодLSQLSBCLWOARPSСреднее расстояние.(Стандартная0.730.730.590.630.580.78нормировка)Среднее расстояние.(Статистическая0.730.730.340.680.580.78нормировка)Метод LSQ нашел одинаковые разбиения для обоих типов нормировки.Веса критериев записаны в таблице 2.18, из них ненулевые веса получили,главным образом, два критерия: самоцитирование и индекс Хирша (на уровнестран).