Диссертация (1137276), страница 14
Текст из файла (страница 14)
Очистка дерева категорий от ирререлевантных подкатегорий4. Достраивание категорий Википедии к темам таксономии5. Формирование промежуточных уровней таксономии6. Использование названий статей Википедии в качестве листьев в таксономии7. Излечение ключевых слов и словосочетаний из статей Википедии ииспользование их в качестве уточнений листьев.4.2Экспериментальная верификация метода ReTAST-w4.2.1Постановка экспериментаКак уже было сказано выше, метод ReTAST-w должен состоять из двухэтапов. Первый заключается в ручном построении основы таксономии. В качестве основы таксономии мы предлагаем использовать темы, извлечённые изклассификации наук и паспортов специальностей ВАК. На втором этапе основатаксономии пополняется темами, извлеченными из дерева категорий и статейрусскоязычной Википедии.С помощью ReTAST-w мы построили две таксономии: таксономию теориивероятностей и математической статистики (ТВиМС) и таксономию численныхметодов (ЧМ).Кроме того, была проведена экспертная оценка качества достроенной таксономии и проведено сравнение с косинусной мерой релевантности, использованной по аналогии в задаче достраивания таксономии.75Таблица 17 — Основа таксономии теории вероятностей и математическойстатистики (ТВиМС), извлеченная из материалов ВАКТВиМСТеория вероятностей и математическая статистикаТВиМС.01Теория вероятностейТВиМС.01.01Оптимизационные и алгоритмические вероятностные задачиТВиМС.01.02Комбинаторные и геометрические вероятностные задачиТВиМС.01.03Распределения вероятностей и предельныетеоремыТВиМС.01.04Случайные процессы и поляТВиМС.01.05Модели и характеристики случайных явленийТВиМС.02Математическая статистикаТВиМС.02.01Методы статистического анализа и выводаТВиМС.02.02Статистические параметры и их оцениваниепо выборкеТВиМС.02.03Статистические критерии и проверка статистических гипотезТВиМС.02.04Временные ряды и случайные процессыТВиМС.02.05Машинное обучениеТВиМС.02.06Многомерная статистика и анализ данных4.2.2Выбор данныхПо материалам ВАК мы задали основы двух таксономий: таксономияТВиМС (Таблица 17) и таксономия ЧМ (Таблица 18).Из одноименных категорий Википедии “Теория вероятностей и математическая статистика” и “Численные методы” мы извлекали данные двух типов:деревья категорий, корни которых находится в соответствующих категориях ивсе статьи, принадлежащие данным категориям и их подкатегориям.
В Таблице19 представлено общее число статей и категорий, извлеченных из Википедии.76Таблица 18 — Основа таксономии численных методов (ЧМ), извлеченная изматериалов ВАКЧМВычислительная математикаЧМ.01Алгоритмы численного решения задачЧМ.04Реализация численных методов в решенииприкладных задачЧМ.03Программные комплексы, связанные с численными методамиЧМ.02Теория численных методовЧМ.02.02Свойства алгоритмовЧМ.02.03Эффективность алгоритмовЧМ.02.01Обоснование алгоритмовТаблица 19 — Число статей и категорий в категориях ТВиМС и ЧМПредметная область Число статей Число категорийТВиМС92854ЧМ1340914.2.3Пошаговое описание метода ReTAST-wИзвлечение дерева категорий и статей из ВикипедииДля извлечения дерева категорий и статей из Википедии была использована программа WikiDP.
Она начинала обход дерева категорий в категории“Теория вероятностей и математическая статистика” и обходила дерево категорий по подкатегориям по принципу обхода дерева в глубину. Программа сохраняла все подкатегории и статьи, попавшиеся ей на пути. Аналогичным образом,программа обошла дерево категорий с корнем в “Численных методах”. Общееколичество извлеченных категорий и статей представлено выше в Таблице 19.77Таблица 20 — Примеры иррелевантных статей согласно условию АПредметнаяОценкаРодительская катего СтатьяобластьрелериявантностиТВиМС0.0174Теория вероятностейПолная группа событийТВиМС0.0048Теория вероятностейТематическое моделированиеЧМ0.0108Численное интегриро Интегрирование ВерлеваниеОчистка дерева категорий от иррелевантных статейМы считали статью иррелевантной (т.е.
шумовой), если для нее выполнялось одно из двух условий:A Оценка релевантности по СУВСС названия статьи тексту статьи нижезаданного порога;B Оценка релевантности по СУВСС родительской категории тексту статьи была ниже заданного порога.Условие A помогает избавиться от так называемых заглушек – пустыхили коротких незаконченных статей и статей-шаблонов.
Согласно условию B,мы удаляли те статьи, которые не имеют предположительно смысловой связис родительской категорией. Для оценивания релевантности мы использовали,разумеется, меру релевантности, основанную на АСД. В качестве порога наоценку релевантности мы снова выбрали 0.2 как треть от максимального эмпирически получаемого значения меры релевантности.На первый взгляд, все оценки приведенные в Таблице 20 могут показатьсяошибочными.
Тем не менее, они все правомерны. Статья “Полная группа событий” является заглушкой, поэтому не может быть использована для пополнениятаксономии. “Тематическое моделирование” предполагает использования аппа78Таблица 21 — Примеры иррелевантных статей согласно условию BПредметнаяОценкаРодительская катего СтатьяобластьрелериявантностиТВиМС0.1020Теория вероятностейПоиск наилучшей проекцииТВиМС0.0156Байесовская статисти Перл, ДжудакаЧМ0.1948Регресионный анализ ROC-криваяЧМ0.1944Численное интегриро БШСН формализмваниерата теории вероятностей, но, относится скорее к “Автоматической обработкетекстов” или “Информационному поиску”, чем к “Теории вероятностей”.
Аналогично, “Интегрирование Верле” скорее принадлежит к “Численному решениюдифференциальных уравнений”, чем к “Численному интегрированию”.Схожие сомнения может вызвать и Таблица 21. На самом деле, “БШСНформализм” является частью “Общей теории относительности”, а не “Численного интегрирования”, тем более, что по размеру (2 абзаца) эта статья большенапоминает заглушку, чем полноценную статью.
“ROC-кривая” – способ оценкикачества классификаторов – это понятие из области “Машинного обучения”, ане из области “Регрессионного анализа”. “Перл, Джуда” вовсе не понятия, а имяодного известного ученого. “Поиск наилучшей проекции” в самом деле принадлежит “Математической статистике”, но скорее, в качестве непрямого потомка.Правильней было бы поместить это понятие в категорию “Многомерная статистика” (однако, такой категории в русскоязычной Википедии нет).Очистка дерева категорий от ирререлевантных подкатегорий79Таблица 22 — Примеры иррелевантныхПредметнаяОценка релевантобластьностиТВиМС0.1923ТВиМС0.1515ТВиМСЧМ0.01420.0632ЧМ0.0287подкатегорийРодительская ка ПодкатегориятегорияСтатистикаСтатистикапостранамМашинное обуче Теория оптимизаниецииСтатистикаМета-анализАлгоритмыВычислительнаятеория группЧисленные мето Численныемедытодымеханикисплошных средМы считали подкатегорию иррелеватной родительской категории, еслиоценка релевантности названия родительской категории всем статьям подкатегории, объединённым в один текст, ниже заданного порога.
Мы снова использовали СУВСС – меру релевантности, основанную на АСД, и в качестве порогана оценку снова выбрали 0.2. Такой подход к определению иррелевантных категорий не применим в том случае, если в подкатегории нет статей.Рассмотрим Таблицу 22. Она действительно выявляет некоторые слабостисвязи категория – подкатегория в русскоязычной Википедии. Так, например,понятие “Теория оптимизации” должно было бы быть “сестрой”, а не потомком“Машинного обучения”. Примеры из области численных методов (ЧМ) показывают, как понятия, принадлежащие к частной теории ошибочно становятсясоставляющими более общей. Примеры из категории “Статистика” выявляютдвойственность это категории: с одной стороны, в нее попадают статьи и подкатегории связанные с “Математической статистикой”, с другой стороны, статьии категории, связанные с использованием статистики в общественных науках.80Достраивание категорий Википедии к темам таксономииПосле очистки дерева категорий от иррелевантных статей и категориймы достраивали категории статей к темам таксономии.
Для этого мы оценивали релевантность таксономических тем категориям, представленным всемистатьями, объеденными в один текст. Мы достраивали категорию в качествепотомка к той теме таксономии, оценка релевантности которой оказалась максимальной. Таблицы и демонстрируют два примера достраивания категорийВикипедии к темам таксономии. В первом случае рассматривается достраивание категории “Байесовская статистика” к темам таксономии ТВиМС, во втором – категории “Методы решения СЛАУ” к темам таксономии ЧМ. Все темытаксономий в таблицах приведены в порядке возрастания оценки релевантности, так что последней оказывается та тема, к которой достраивается категория(“Теория вероятностей” и “Алгоритмы численного решения задач”).Формирование промежуточных уровней таксономииНа промежуточном уровне в таксономии остаются те подкатегории, оценка релеватности по СУВСС которым названия их родительских категорий выше, чем оценка релевантности по СУВСС им таксономических тем.Согласно Таблице 25, из 6 подкатегорий оставшихся в категории “Случайные процессы” после процедуры очистки дерева категорий, 3 подкатегории(“Марковские процессы”, “Мартингалы”, “Метод Монте-Карло”) более релевантны родительской категории, чем темам таксономии, а три (“Стохастические модели”, “Шум”, “Теория массового обслуживания” – теме таксономии “Случайныепроцессы”.
Заметим, что, во-первых, в русскоязычной Википедии отсутствуютстатьи, посвященные случайным полям, а во-вторых, что все подкатегории ка81Таблица 23 — Оценки релевантности категории “Байесовская статистика”темам таксономии ТВиМСОценка релевант Теория вероятностей и математическая статиностистика0.0190Временные ряды и случайные процессы0.0789Случайные процессы и поля0.1212Оптимизационные и алгоритмические вероятностные задачи0.1504Модели и характеристики случайных явлений0.1957Распределения вероятностей и предельныетеоремы0.2003Комбинаторные и геометрические вероятностные задачи0.2012Статистические критерии и проверка статистических гипотез0.2452Статистические параметры и их оцениваниепо выборке0.2870Методы статистического анализа и вывода0.3201Математическая статистика0.3450Многомерная статистика и анализ данных0.4210Машинное обучение0.5323Теория вероятностейтегории “Случайные процессы” получают максимальную оценку релевантностиодной и той же теме таксономии – “Случайные процессы и поля”.Полученный согласно Таблице 25 фрагмент таксономии ТВиМС представлен на Рис.