Диссертация (1137276), страница 15
Текст из файла (страница 15)
.82Таблица 24 — Оценки релевантности категории “Методы решения СЛАУ”темам таксономии ЧМОценка релевант Вычислительная математиканости0.1631Эффективность алгоритмов0.1803Теория численных методов0.2071Программные комплексы, связанные с численными методами0.2138Обоснование алгоритмов0.2761Свойства алгоритмов0.3865Реализация численных методов в решенииприкладных задач0.5134Численные методы0.6210Алгоритмы численного решения задачРисунок 4.2 — Фрагмент таксономии ТВиМС: промежуточные уровни раздела“Случайные процессы и поля”83Таблица 25 — Примеры подкатегорий, формирующих промежуточные уровнив таксономииПредметнаяОценкаТема таксономии ОценкаПодкатегорияобластьрелерелевантновантсти теменоститаксонородимиительскойкатегорииТВиМС0.4961Случайные про 0.4842Стохастическиецессы и полямоделиТВиМС0.4914Случайные про 0.3825Шумцессы и поляТВиМС0.4671Случайные про 0.4813Марковские процессы и поляцессыТВиМС0.4423Случайные про 0.3814Теория массовогоцессы и поляобслуживанияТВиМС0.4267Случайные про 0.4372МетодМонтецессы и поляКарлоТВиМС0.3752Случайные про 0.3982Мартингалыцессы и поляИспользование названий статей Википедии в качестве листьев втаксономииЕсли после процедуры очистки дерева категорий от шума в категорииостались статьи, то мы назначали их листьями в достроенной таксономии, внезависимости от того, на какой уровень была достроена категория.В Таблице 26 приведены релевантные (выделенные жирным начертанием)и иррелевантные статьи категории “Метод Монте-Карло”.
6 релевантных статей84Таблица 26 — Релевантные и иррелевантные статьи вМонте-Карло”ПредметнаяОценкаКатегорияобластьрелевантностиТВиМС0.4529МетодМонтеКарлоТВиМС0.3974МетодМонтеКарлоТВиМС0.3864ТВиМС0.3193ТВиМС0.2974ТВиМС0.2423ТВиМС0.1973ТВиМС0.1537ТВиМС0.1294ТВиМС0.0475МетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлокатегории “МетодСтатьяМетод МонтеКарлоМетод МонтеКарлодляпереноса фотоновМонте СемплированиеМонте Алгоритм имитации отжигаМонте Семплированиепо ГиббсуМонте Выборка по значимостиМонте Выборка с отклонениемМонте Выборка по уровнямМонте ТасованиеФишера-ЙетсаМонте Дифференциальнаяэволюцияостаются детьми темы “Метод Монте-Карло” становятся листьями в таксономииТВиМС.85Таблица 27 — Ключевые слова и словосочетания, извлеченные из статьи“Семплирование по Гиббсу”Ключевое слово / словосочетание ЧастотаСлучайная величина13Алгоритм12Совместное распределение7Плотность вероятности6Условная вероятность4Отклонение4Извлечение ключевых слов и словосочетаний из статейПод уточнением листа мы понимаем набор из ключевых слов и словосочетаний, объясняющих содержание листа.
Поскольку в качестве листьев вдостроенной таксономии выступают названия статей, из текстов статей непосредственно можно извлечь уточнения. Мы не использовали сложных методовизвлечениях ключевых слов и словосочетаний, а извлекали наиболее частотные существительные и словосочетания и считали их уточнениями. Словосочетания мы определяли по грамматическим шаблонам вида существительное +существительное или прилагательное + прилагательное, следуя [92]. Части речи определялись с использованием морфологического анализатора PyMorphy2.Ключевыми мы считали те слова и словосочетания, частота которых превосходит 4 (порог установлен эмпирически).Таблица 27 представляет ключевые слова и словосочетания, извлеченныепо этой схеме из статьи “Семплирование по Гиббсу”.864.2.4Схема экспериментаЭксперимент по пополнению каждой таксономии осуществляется внесколько этапов:1.
Для построения четырех РСТ таблиц с использованием СУВСС:– название статьи – текст статьи;– название родительской категории – текст статьи;– название родительской категории – объединенный текст подкатегории;– тема таксономии – объединенный текст подкатегории.a) Предобработка текстов: удаление Вики-разметки из статейВикипедии разбиение текстов на строки из трех словb) Использование меры релевантности, основанной на АСД с линейной шкалирующей функцией для оценивания релевантности названий статей, категорий и таксономических тем статьям и объединенным текстам подкатегории.c) Формирование четырех РСТ таблиц.2. Для пополнения таксономии по построенным РСТ таблицам:a) Иррелевантные статьи определяются поРСТтаблицам название статьи – текст статьи и название категории – текст статьи;b) Иррелевантные категории определяются поРСТтаблице название родительской категории – объединенный текст подкатегории;c) Достраивание категорий Википедии к темам таксономии осуществляется по таблице тема таксономии – объединенныйтекст подкатегории;d) Промежуточные уровни таксономии определяются по РСТтаблицам тема таксономии – объединенный текст подкатегории и название родительской категории – объединенный текстподкатегории;e) Уточнения листьев извлекаются из текстов статей.874.2.5Экспертное оцениваниеКак уже было сказано выше, адекватных русскоязычных таксономий прикладной или чистой математики не существует, что делает сравненения с эталоном невозможны, поэтому для оценки качества построенных таксономий былипривлечены двое экспертов.Для экспертов был подготовлен опросник, состоящих из двух частей, всоответствии с двумя логическими этапами достраивания таксономии.
В первой части экспертам был задан вопрос, направленный на проверку точностиочистки дерева категорий от шума, во второй части – на точность определенияродителя для категории Википедии (тема из таксономии или надкатегория подереву категорий).Экспертная оценка проводилась только для достроенной таксономии теории вероятностей и математической статистики.Приведем инструкцию для экспертов по заполнению опросника.Просим Вас помочь оценить качество машинной классификации. В первой части анкеты (Лист “Часть 1”) Вам будет предъявлено некоторое множество понятий математической статистики и теории вероятностей (выделены жирным шрифтом), каждому из которых сопоставлено некоторое количество понятий-детей, автоматически выбранных из русской Википедии всоответствии с методом, описанным в статье “ Chernyak E.
L., Mirkin B. G.Refining a Taxonomy by Using Annotated Suffix Trees and Wikipedia Resources //Annals of Data Science. 2015. Vol. 2. No. 1. P. 61-82”. Предполагается, чтокаждое из понятий-детей выражает часть понятия родителя. Приведемпример.Ваша задача - для каждого из понятий-детей указать, в соответствиис Вашим представлением о предмете, является ли оно действительно частью понятия-родителя. Ваш ответ - “да”, “нет” или оставить поле ответапустым, если вы не знаете, как ответить.На второй странице эксперимента (Лист “Часть 2”) тот же форматвыражает обратное отношение, при котором понятия-дети – это кандидаты на роль более общего понятия, чем понятие-родитель.
Пример:Нужно выбрать одно и только одно понятие - родитель, частью которого является данное понятие - дитя. В данном случае в качестве такового88Таблица 28 — Пример вопроса из Части 1Метод Монте-КарлоCompHEPFLUKAGeant4MCNPMonte Carlo UniversalPYTHIAАлгоритм имитации отжигаАлгоритм Метрополиса —ГастингсаАндросенко, Пётр АлександровичБюффон, Жорж-Луи Леклерк деВыборка по значимостиВыборка по уровнямследует выбрать Алгоритмы и методы оптимизации. Для обозначения своего выбора поставьте символ “X” (“икс”) в левый столбец рядом с выбраннымпонятием-родителем. Хотя, конечно, Выпуклый анализ, вообще говоря, далеко выходит за рамки задач оптимизации, но применительно к тематикетеории вероятностей и математической статистики, о которой только иидёт речь, предлагаемое соответствие можно признать корректным.Результаты экспертного оценивания могут быть использованы в качествеэталонной таксономии теории вероятностей и математической статистики.
Сэталонной таксономией можно сранить полученную достроенноую таксономиютой же предметной области, и оценить таким образом ее качество. Для проверкицелесобразности достраивания таксономии с использованием меры релевантности СУВСС, а не какой-либо другой, можно повторить процедуру достраиваниятаксономии с любой другой мерой релеватности (например, с использованиемкосинусной меры релеватности), и так же сравнить достроенную таксономию сэталоном, полученным в результате опроса экспертов.89Таблица 29 — Пример вопроса из Части 2Выпуклый анализXАлгоритмы и методы оптимизацииВременные ряды и случайные процессыКомбинаторные и геометрические вероятностныезадачиМетоды статистическогоанализа и выводаМатематическая статистикаМногомерная статистикаи анализ данныхНепосредственно для оценивания качества достроенной таксономии можно использовать следующие показатели:– Качество очистки от шума:– – число истинно-положительных статей и категорий, то есть,число статей, являющихся шумовыми с точки зрения экспертови признанными шумовыми по АСД мере;– – число истинно-отрицательных статей и категорий, то есть,число статей, являющихся нешумовыми с точки зрения экспертов и признанными нешумовыми по АСД мере;– – число ложно-положительных статей и категорий, то есть,число статей, являющихся нешумовыми с точки зрения экспертов согласно и признанными нешумовыми по АСД мере;– – число ложно-отрицательных статей и категорий, то есть,число статей, являющихся шумовыми с точки зрения экспертовсогласно и признанными шумовыми по АСД мере;+– аккуратность = +++ – доля истинно-положительных и истинно-отрицательных статей и категорий среди об90щего числа статей и категорий – аггрегированная мера качестваочистки от шума;– Качество достраивания категорий Википедии к темам таксономии иформирования промежуточных уровней:– – число истинно-положительных пар категория – родитель,где родитель, назначенный экспертами совпадает с родителем,выбранным по АСД мере;– – число истинно-отрицательных пар категория – родитель,где родитель, не назначенный экспертами, не выбран по АСДмере;– – число ложно-положительных пар категория – родитель, гдеродитель, не назначенный экспертами, выбран по АСД мере;– – число ложно-отрицательных пар категория – родитель, гдеродитель, назначенный экспертами, не выбран по АСД мере;+– аккуратность = +++ – доля истинно-положительных и истинно-отрицательных статей и пар категория – родитель среди всех возможных пар категория – родитель – аггрегированная мера качества достраивания категорий Википедиик темам таксономии и формирования промежуточных уровней.4.2.6Результаты экспериментаПолученная таксономия ТВиМС насчитывает 6 уровней, ее глубина изменяется нот 4 до 6.
В ходе ее построения 20 категорий и 108 статей былипризнаны иррелевантными и убраны из дерева категорий Википедии. Таксономия ЧМ имеет похожую форму: в ней 8 уровней, глубина изменяется от 4 до8. На этапе очистки 11 категорий и 30 статей были признаны иррелевантными.На Рис. 4.3 и Рис. 4.4 представлены фрагменты таксономии ТВиМС (с акцентом на листья и их уточнения) и ЧМ (с акцентом на промежуточные уровнитаксономии).В ходе пополнения обеих таксономий мы столкнулись с несколькими проблемами, выявляющими недостатки метода ReTAST-w.