Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 14

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 14 страницаДиссертация (1137276) страница 142019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 14)

Очистка дерева категорий от ирререлевантных подкатегорий4. Достраивание категорий Википедии к темам таксономии5. Формирование промежуточных уровней таксономии6. Использование названий статей Википедии в качестве листьев в таксо­номии7. Излечение ключевых слов и словосочетаний из статей Википедии ииспользование их в качестве уточнений листьев.4.2Экспериментальная верификация метода ReTAST-w4.2.1Постановка экспериментаКак уже было сказано выше, метод ReTAST-w должен состоять из двухэтапов. Первый заключается в ручном построении основы таксономии. В ка­честве основы таксономии мы предлагаем использовать темы, извлечённые изклассификации наук и паспортов специальностей ВАК. На втором этапе основатаксономии пополняется темами, извлеченными из дерева категорий и статейрусскоязычной Википедии.С помощью ReTAST-w мы построили две таксономии: таксономию теориивероятностей и математической статистики (ТВиМС) и таксономию численныхметодов (ЧМ).Кроме того, была проведена экспертная оценка качества достроенной так­сономии и проведено сравнение с косинусной мерой релевантности, использо­ванной по аналогии в задаче достраивания таксономии.75Таблица 17 — Основа таксономии теории вероятностей и математическойстатистики (ТВиМС), извлеченная из материалов ВАКТВиМСТеория вероятностей и математическая стати­стикаТВиМС.01Теория вероятностейТВиМС.01.01Оптимизационные и алгоритмические вероят­ностные задачиТВиМС.01.02Комбинаторные и геометрические вероят­ностные задачиТВиМС.01.03Распределения вероятностей и предельныетеоремыТВиМС.01.04Случайные процессы и поляТВиМС.01.05Модели и характеристики случайных явле­нийТВиМС.02Математическая статистикаТВиМС.02.01Методы статистического анализа и выводаТВиМС.02.02Статистические параметры и их оцениваниепо выборкеТВиМС.02.03Статистические критерии и проверка стати­стических гипотезТВиМС.02.04Временные ряды и случайные процессыТВиМС.02.05Машинное обучениеТВиМС.02.06Многомерная статистика и анализ данных4.2.2Выбор данныхПо материалам ВАК мы задали основы двух таксономий: таксономияТВиМС (Таблица 17) и таксономия ЧМ (Таблица 18).Из одноименных категорий Википедии “Теория вероятностей и математи­ческая статистика” и “Численные методы” мы извлекали данные двух типов:деревья категорий, корни которых находится в соответствующих категориях ивсе статьи, принадлежащие данным категориям и их подкатегориям.

В Таблице19 представлено общее число статей и категорий, извлеченных из Википедии.76Таблица 18 — Основа таксономии численных методов (ЧМ), извлеченная изматериалов ВАКЧМВычислительная математикаЧМ.01Алгоритмы численного решения задачЧМ.04Реализация численных методов в решенииприкладных задачЧМ.03Программные комплексы, связанные с чис­ленными методамиЧМ.02Теория численных методовЧМ.02.02Свойства алгоритмовЧМ.02.03Эффективность алгоритмовЧМ.02.01Обоснование алгоритмовТаблица 19 — Число статей и категорий в категориях ТВиМС и ЧМПредметная область Число статей Число категорийТВиМС92854ЧМ1340914.2.3Пошаговое описание метода ReTAST-wИзвлечение дерева категорий и статей из ВикипедииДля извлечения дерева категорий и статей из Википедии была исполь­зована программа WikiDP.

Она начинала обход дерева категорий в категории“Теория вероятностей и математическая статистика” и обходила дерево катего­рий по подкатегориям по принципу обхода дерева в глубину. Программа сохра­няла все подкатегории и статьи, попавшиеся ей на пути. Аналогичным образом,программа обошла дерево категорий с корнем в “Численных методах”. Общееколичество извлеченных категорий и статей представлено выше в Таблице 19.77Таблица 20 — Примеры иррелевантных статей согласно условию АПредметнаяОценкаРодительская катего­ Статьяобластьреле­риявантно­стиТВиМС0.0174Теория вероятностейПолная группа собы­тийТВиМС0.0048Теория вероятностейТематическое модели­рованиеЧМ0.0108Численное интегриро­ Интегрирование ВерлеваниеОчистка дерева категорий от иррелевантных статейМы считали статью иррелевантной (т.е.

шумовой), если для нее выполня­лось одно из двух условий:A Оценка релевантности по СУВСС названия статьи тексту статьи нижезаданного порога;B Оценка релевантности по СУВСС родительской категории тексту ста­тьи была ниже заданного порога.Условие A помогает избавиться от так называемых заглушек – пустыхили коротких незаконченных статей и статей-шаблонов.

Согласно условию B,мы удаляли те статьи, которые не имеют предположительно смысловой связис родительской категорией. Для оценивания релевантности мы использовали,разумеется, меру релевантности, основанную на АСД. В качестве порога наоценку релевантности мы снова выбрали 0.2 как треть от максимального эмпи­рически получаемого значения меры релевантности.На первый взгляд, все оценки приведенные в Таблице 20 могут показатьсяошибочными.

Тем не менее, они все правомерны. Статья “Полная группа собы­тий” является заглушкой, поэтому не может быть использована для пополнениятаксономии. “Тематическое моделирование” предполагает использования аппа­78Таблица 21 — Примеры иррелевантных статей согласно условию BПредметнаяОценкаРодительская катего­ Статьяобластьреле­риявантно­стиТВиМС0.1020Теория вероятностейПоиск наилучшей про­екцииТВиМС0.0156Байесовская статисти­ Перл, ДжудакаЧМ0.1948Регресионный анализ ROC-криваяЧМ0.1944Численное интегриро­ БШСН формализмваниерата теории вероятностей, но, относится скорее к “Автоматической обработкетекстов” или “Информационному поиску”, чем к “Теории вероятностей”.

Анало­гично, “Интегрирование Верле” скорее принадлежит к “Численному решениюдифференциальных уравнений”, чем к “Численному интегрированию”.Схожие сомнения может вызвать и Таблица 21. На самом деле, “БШСНформализм” является частью “Общей теории относительности”, а не “Числен­ного интегрирования”, тем более, что по размеру (2 абзаца) эта статья большенапоминает заглушку, чем полноценную статью.

“ROC-кривая” – способ оценкикачества классификаторов – это понятие из области “Машинного обучения”, ане из области “Регрессионного анализа”. “Перл, Джуда” вовсе не понятия, а имяодного известного ученого. “Поиск наилучшей проекции” в самом деле принад­лежит “Математической статистике”, но скорее, в качестве непрямого потомка.Правильней было бы поместить это понятие в категорию “Многомерная стати­стика” (однако, такой категории в русскоязычной Википедии нет).Очистка дерева категорий от ирререлевантных подкатегорий79Таблица 22 — Примеры иррелевантныхПредметнаяОценка релевант­областьностиТВиМС0.1923ТВиМС0.1515ТВиМСЧМ0.01420.0632ЧМ0.0287подкатегорийРодительская ка­ ПодкатегориятегорияСтатистикаСтатистикапостранамМашинное обуче­ Теория оптимиза­ниецииСтатистикаМета-анализАлгоритмыВычислительнаятеория группЧисленные мето­ Численныеме­дытодымеханикисплошных средМы считали подкатегорию иррелеватной родительской категории, еслиоценка релевантности названия родительской категории всем статьям подкате­гории, объединённым в один текст, ниже заданного порога.

Мы снова использо­вали СУВСС – меру релевантности, основанную на АСД, и в качестве порогана оценку снова выбрали 0.2. Такой подход к определению иррелевантных ка­тегорий не применим в том случае, если в подкатегории нет статей.Рассмотрим Таблицу 22. Она действительно выявляет некоторые слабостисвязи категория – подкатегория в русскоязычной Википедии. Так, например,понятие “Теория оптимизации” должно было бы быть “сестрой”, а не потомком“Машинного обучения”. Примеры из области численных методов (ЧМ) пока­зывают, как понятия, принадлежащие к частной теории ошибочно становятсясоставляющими более общей. Примеры из категории “Статистика” выявляютдвойственность это категории: с одной стороны, в нее попадают статьи и подка­тегории связанные с “Математической статистикой”, с другой стороны, статьии категории, связанные с использованием статистики в общественных науках.80Достраивание категорий Википедии к темам таксономииПосле очистки дерева категорий от иррелевантных статей и категориймы достраивали категории статей к темам таксономии.

Для этого мы оцени­вали релевантность таксономических тем категориям, представленным всемистатьями, объеденными в один текст. Мы достраивали категорию в качествепотомка к той теме таксономии, оценка релевантности которой оказалась мак­симальной. Таблицы и демонстрируют два примера достраивания категорийВикипедии к темам таксономии. В первом случае рассматривается достраива­ние категории “Байесовская статистика” к темам таксономии ТВиМС, во вто­ром – категории “Методы решения СЛАУ” к темам таксономии ЧМ. Все темытаксономий в таблицах приведены в порядке возрастания оценки релевантно­сти, так что последней оказывается та тема, к которой достраивается категория(“Теория вероятностей” и “Алгоритмы численного решения задач”).Формирование промежуточных уровней таксономииНа промежуточном уровне в таксономии остаются те подкатегории, оцен­ка релеватности по СУВСС которым названия их родительских категорий вы­ше, чем оценка релевантности по СУВСС им таксономических тем.Согласно Таблице 25, из 6 подкатегорий оставшихся в категории “Слу­чайные процессы” после процедуры очистки дерева категорий, 3 подкатегории(“Марковские процессы”, “Мартингалы”, “Метод Монте-Карло”) более релевант­ны родительской категории, чем темам таксономии, а три (“Стохастические мо­дели”, “Шум”, “Теория массового обслуживания” – теме таксономии “Случайныепроцессы”.

Заметим, что, во-первых, в русскоязычной Википедии отсутствуютстатьи, посвященные случайным полям, а во-вторых, что все подкатегории ка­81Таблица 23 — Оценки релевантности категории “Байесовская статистика”темам таксономии ТВиМСОценка релевант­ Теория вероятностей и математическая стати­ностистика0.0190Временные ряды и случайные процессы0.0789Случайные процессы и поля0.1212Оптимизационные и алгоритмические вероят­ностные задачи0.1504Модели и характеристики случайных явле­ний0.1957Распределения вероятностей и предельныетеоремы0.2003Комбинаторные и геометрические вероят­ностные задачи0.2012Статистические критерии и проверка стати­стических гипотез0.2452Статистические параметры и их оцениваниепо выборке0.2870Методы статистического анализа и вывода0.3201Математическая статистика0.3450Многомерная статистика и анализ данных0.4210Машинное обучение0.5323Теория вероятностейтегории “Случайные процессы” получают максимальную оценку релевантностиодной и той же теме таксономии – “Случайные процессы и поля”.Полученный согласно Таблице 25 фрагмент таксономии ТВиМС представ­лен на Рис.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее