Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 15

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 15 страницаДиссертация (1137276) страница 152019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 15)

.82Таблица 24 — Оценки релевантности категории “Методы решения СЛАУ”темам таксономии ЧМОценка релевант­ Вычислительная математиканости0.1631Эффективность алгоритмов0.1803Теория численных методов0.2071Программные комплексы, связанные с чис­ленными методами0.2138Обоснование алгоритмов0.2761Свойства алгоритмов0.3865Реализация численных методов в решенииприкладных задач0.5134Численные методы0.6210Алгоритмы численного решения задачРисунок 4.2 — Фрагмент таксономии ТВиМС: промежуточные уровни раздела“Случайные процессы и поля”83Таблица 25 — Примеры подкатегорий, формирующих промежуточные уровнив таксономииПредметнаяОценкаТема таксономии ОценкаПодкатегорияобластьреле­реле­вантно­вант­сти теменоститаксоно­роди­миительскойкатего­рииТВиМС0.4961Случайные про­ 0.4842Стохастическиецессы и полямоделиТВиМС0.4914Случайные про­ 0.3825Шумцессы и поляТВиМС0.4671Случайные про­ 0.4813Марковские про­цессы и поляцессыТВиМС0.4423Случайные про­ 0.3814Теория массовогоцессы и поляобслуживанияТВиМС0.4267Случайные про­ 0.4372МетодМонте­цессы и поляКарлоТВиМС0.3752Случайные про­ 0.3982Мартингалыцессы и поляИспользование названий статей Википедии в качестве листьев втаксономииЕсли после процедуры очистки дерева категорий от шума в категорииостались статьи, то мы назначали их листьями в достроенной таксономии, внезависимости от того, на какой уровень была достроена категория.В Таблице 26 приведены релевантные (выделенные жирным начертанием)и иррелевантные статьи категории “Метод Монте-Карло”.

6 релевантных статей84Таблица 26 — Релевантные и иррелевантные статьи вМонте-Карло”ПредметнаяОценкаКатегорияобластьреле­вантно­стиТВиМС0.4529МетодМонте­КарлоТВиМС0.3974МетодМонте­КарлоТВиМС0.3864ТВиМС0.3193ТВиМС0.2974ТВиМС0.2423ТВиМС0.1973ТВиМС0.1537ТВиМС0.1294ТВиМС0.0475МетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлоМетодКарлокатегории “МетодСтатьяМетод Монте­КарлоМетод Монте­Карлодляпереноса фото­новМонте­ СемплированиеМонте­ Алгоритм ими­тации отжигаМонте­ Семплированиепо ГиббсуМонте­ Выборка по зна­чимостиМонте­ Выборка с откло­нениемМонте­ Выборка по уров­нямМонте­ ТасованиеФи­шера-ЙетсаМонте­ Дифференциальнаяэволюцияостаются детьми темы “Метод Монте-Карло” становятся листьями в таксономииТВиМС.85Таблица 27 — Ключевые слова и словосочетания, извлеченные из статьи“Семплирование по Гиббсу”Ключевое слово / словосочетание ЧастотаСлучайная величина13Алгоритм12Совместное распределение7Плотность вероятности6Условная вероятность4Отклонение4Извлечение ключевых слов и словосочетаний из статейПод уточнением листа мы понимаем набор из ключевых слов и слово­сочетаний, объясняющих содержание листа.

Поскольку в качестве листьев вдостроенной таксономии выступают названия статей, из текстов статей непо­средственно можно извлечь уточнения. Мы не использовали сложных методовизвлечениях ключевых слов и словосочетаний, а извлекали наиболее частот­ные существительные и словосочетания и считали их уточнениями. Словосоче­тания мы определяли по грамматическим шаблонам вида существительное +существительное или прилагательное + прилагательное, следуя [92]. Части ре­чи определялись с использованием морфологического анализатора PyMorphy2.Ключевыми мы считали те слова и словосочетания, частота которых превосхо­дит 4 (порог установлен эмпирически).Таблица 27 представляет ключевые слова и словосочетания, извлеченныепо этой схеме из статьи “Семплирование по Гиббсу”.864.2.4Схема экспериментаЭксперимент по пополнению каждой таксономии осуществляется внесколько этапов:1.

Для построения четырех РСТ таблиц с использованием СУВСС:– название статьи – текст статьи;– название родительской категории – текст статьи;– название родительской категории – объединенный текст подка­тегории;– тема таксономии – объединенный текст подкатегории.a) Предобработка текстов: удаление Вики-разметки из статейВикипедии разбиение текстов на строки из трех словb) Использование меры релевантности, основанной на АСД с ли­нейной шкалирующей функцией для оценивания релевантно­сти названий статей, категорий и таксономических тем ста­тьям и объединенным текстам подкатегории.c) Формирование четырех РСТ таблиц.2. Для пополнения таксономии по построенным РСТ таблицам:a) Иррелевантные статьи определяются поРСТтаблицам назва­ние статьи – текст статьи и название категории – текст статьи;b) Иррелевантные категории определяются поРСТтаблице на­звание родительской категории – объединенный текст подка­тегории;c) Достраивание категорий Википедии к темам таксономии осу­ществляется по таблице тема таксономии – объединенныйтекст подкатегории;d) Промежуточные уровни таксономии определяются по РСТтаблицам тема таксономии – объединенный текст подкатего­рии и название родительской категории – объединенный текстподкатегории;e) Уточнения листьев извлекаются из текстов статей.874.2.5Экспертное оцениваниеКак уже было сказано выше, адекватных русскоязычных таксономий при­кладной или чистой математики не существует, что делает сравненения с этало­ном невозможны, поэтому для оценки качества построенных таксономий былипривлечены двое экспертов.Для экспертов был подготовлен опросник, состоящих из двух частей, всоответствии с двумя логическими этапами достраивания таксономии.

В пер­вой части экспертам был задан вопрос, направленный на проверку точностиочистки дерева категорий от шума, во второй части – на точность определенияродителя для категории Википедии (тема из таксономии или надкатегория подереву категорий).Экспертная оценка проводилась только для достроенной таксономии тео­рии вероятностей и математической статистики.Приведем инструкцию для экспертов по заполнению опросника.Просим Вас помочь оценить качество машинной классификации. В пер­вой части анкеты (Лист “Часть 1”) Вам будет предъявлено некоторое мно­жество понятий математической статистики и теории вероятностей (вы­делены жирным шрифтом), каждому из которых сопоставлено некоторое ко­личество понятий-детей, автоматически выбранных из русской Википедии всоответствии с методом, описанным в статье “ Chernyak E.

L., Mirkin B. G.Refining a Taxonomy by Using Annotated Suffix Trees and Wikipedia Resources //Annals of Data Science. 2015. Vol. 2. No. 1. P. 61-82”. Предполагается, чтокаждое из понятий-детей выражает часть понятия родителя. Приведемпример.Ваша задача - для каждого из понятий-детей указать, в соответствиис Вашим представлением о предмете, является ли оно действительно ча­стью понятия-родителя. Ваш ответ - “да”, “нет” или оставить поле ответапустым, если вы не знаете, как ответить.На второй странице эксперимента (Лист “Часть 2”) тот же форматвыражает обратное отношение, при котором понятия-дети – это кандида­ты на роль более общего понятия, чем понятие-родитель.

Пример:Нужно выбрать одно и только одно понятие - родитель, частью кото­рого является данное понятие - дитя. В данном случае в качестве такового88Таблица 28 — Пример вопроса из Части 1Метод Монте-КарлоCompHEPFLUKAGeant4MCNPMonte Carlo UniversalPYTHIAАлгоритм имитации от­жигаАлгоритм Метрополиса —ГастингсаАндросенко, Пётр Алек­сандровичБюффон, Жорж-Луи Лек­лерк деВыборка по значимостиВыборка по уровнямследует выбрать Алгоритмы и методы оптимизации. Для обозначения свое­го выбора поставьте символ “X” (“икс”) в левый столбец рядом с выбраннымпонятием-родителем. Хотя, конечно, Выпуклый анализ, вообще говоря, да­леко выходит за рамки задач оптимизации, но применительно к тематикетеории вероятностей и математической статистики, о которой только иидёт речь, предлагаемое соответствие можно признать корректным.Результаты экспертного оценивания могут быть использованы в качествеэталонной таксономии теории вероятностей и математической статистики.

Сэталонной таксономией можно сранить полученную достроенноую таксономиютой же предметной области, и оценить таким образом ее качество. Для проверкицелесобразности достраивания таксономии с использованием меры релевантно­сти СУВСС, а не какой-либо другой, можно повторить процедуру достраиваниятаксономии с любой другой мерой релеватности (например, с использованиемкосинусной меры релеватности), и так же сравнить достроенную таксономию сэталоном, полученным в результате опроса экспертов.89Таблица 29 — Пример вопроса из Части 2Выпуклый анализXАлгоритмы и методы оп­тимизацииВременные ряды и случай­ные процессыКомбинаторные и геомет­рические вероятностныезадачиМетоды статистическогоанализа и выводаМатематическая стати­стикаМногомерная статистикаи анализ данныхНепосредственно для оценивания качества достроенной таксономии мож­но использовать следующие показатели:– Качество очистки от шума:– – число истинно-положительных статей и категорий, то есть,число статей, являющихся шумовыми с точки зрения экспертови признанными шумовыми по АСД мере;– – число истинно-отрицательных статей и категорий, то есть,число статей, являющихся нешумовыми с точки зрения экспер­тов и признанными нешумовыми по АСД мере;– – число ложно-положительных статей и категорий, то есть,число статей, являющихся нешумовыми с точки зрения экспер­тов согласно и признанными нешумовыми по АСД мере;– – число ложно-отрицательных статей и категорий, то есть,число статей, являющихся шумовыми с точки зрения экспертовсогласно и признанными шумовыми по АСД мере;+– аккуратность = +++ – доля истинно-положи­тельных и истинно-отрицательных статей и категорий среди об­90щего числа статей и категорий – аггрегированная мера качестваочистки от шума;– Качество достраивания категорий Википедии к темам таксономии иформирования промежуточных уровней:– – число истинно-положительных пар категория – родитель,где родитель, назначенный экспертами совпадает с родителем,выбранным по АСД мере;– – число истинно-отрицательных пар категория – родитель,где родитель, не назначенный экспертами, не выбран по АСДмере;– – число ложно-положительных пар категория – родитель, гдеродитель, не назначенный экспертами, выбран по АСД мере;– – число ложно-отрицательных пар категория – родитель, гдеродитель, назначенный экспертами, не выбран по АСД мере;+– аккуратность = +++ – доля истинно-положи­тельных и истинно-отрицательных статей и пар категория – ро­дитель среди всех возможных пар категория – родитель – аггре­гированная мера качества достраивания категорий Википедиик темам таксономии и формирования промежуточных уровней.4.2.6Результаты экспериментаПолученная таксономия ТВиМС насчитывает 6 уровней, ее глубина из­меняется нот 4 до 6.

В ходе ее построения 20 категорий и 108 статей былипризнаны иррелевантными и убраны из дерева категорий Википедии. Таксоно­мия ЧМ имеет похожую форму: в ней 8 уровней, глубина изменяется от 4 до8. На этапе очистки 11 категорий и 30 статей были признаны иррелевантными.На Рис. 4.3 и Рис. 4.4 представлены фрагменты таксономии ТВиМС (с акцен­том на листья и их уточнения) и ЧМ (с акцентом на промежуточные уровнитаксономии).В ходе пополнения обеих таксономий мы столкнулись с несколькими про­блемами, выявляющими недостатки метода ReTAST-w.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее