Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 13

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 13 страницаДиссертация (1137276) страница 132019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 13)

Пополнение научной таксономии с использованиемсправочных материалов интернетаТаксономия – один из наиболее популярных и удобных инструментов дляпредставления, хранения и использования знания из некоторой предметной об­ласти [77; 78]. Автоматизация построения таксономий является важной задачейкак обработки текстов на естественном языке [79], так и информационного по­иска [80]. Основной подход к автоматическом построению таксономий основанна извлечении ключевых слов и словосочетаний из больших коллекций текстови семантических отношений между ними.

По извлеченным ключевым словам исловосочетанием и семантическим отношениям восстанавливают таксономию.У этого подхода есть несколько очевидных недостатков:– Не каждая предметная область может быть представлена достаточнобольшой коллекцией текстов;– Современные методы извлечения семантических отношений далеки отсовершенства, поэтому построенные таким образом таксономии могутбыть не полными [81].Первый недостаток можно компенсировать, используя различные ресурсыИнтернета, в том числе, Интернет энциклопедию Википедия [82]. В обзоре [82]перечислены основные подходы к построению онтологий и таксономий на осно­ве Википедии. Во-первых, существуют большие онтологии общего назначения,такие как DBPedia [83], организованные по правилам Семантического Веба.

Во­вторых, существует множество меньших таксономий конкретных предметныхобластей. Создание таких онтологий требует больше предварительной работыс данными Википедии и более точного извлечения из Википедии объектов ипонятий, принадлежащих к данной предметной области. К этому направлениюотносится и описанная ниже работа по построению таксономии математическихпонятий.714.1Метод пополнения таксономии ReTAST-wМетод, названный в [84] ReTAST-w, состоит из двух шагов.

На первомшаге задается основа таксономии, два или три уровня, в ручную, основываясьна формальных текстах и определениях. Второй шаг заключается в пошаговомпополнении основы таксономии фрагментами дерева категорий и статей русско­язычной Википедии, предварительно очищенными от шума. Для соотнесениякатегорий, названий статей, таксономических тем и статей и очистки дерева ка­тегорий от шума использована мера релевантности, основанная на АСД и аппа­рат РСТ таблиц.

Основная идея метода пополнения таксономии заключается вследующем. После того, как из Википедии извлечены все необходимые данные,для каждой темы из основы таксономии мы ищем релевантные ей категориии статьи и пополняем тему найденными релевантными категориями и статья­ми.

Метод проиллюстрирован двумя экспериментами: построением таксономиитеории вероятностей и математической статистики и таксономии численных ме­тодов.В качестве источников тем для основы таксономии мы использовали но­менклатурные материалы ВАК, в которых представлены верхние уровни клас­сификации современных наук и паспорта научных специальностей ВАК из ко­торых можно извлечь 2-3 дополнительных уровня. Однако, для построения пол­ной и сбалансированной таксономии этих материалов недостаточно: для описа­ния математических понятий требуется еще 2-3 уровня в таксономии. Отсюдавозникает потребность в использовании Википедии. Таким образом, возникаетзадача пополнения таксономии.

Основу таксономии, извлеченную из материа­лов ВАК, требуется достроить до полноценной таксономии, используя данныеизвлеченные из Википедии. Дополнительное требование к таксономии: следуязолотому стандарту таксономии ACM CCS 2012, каждой листовой теме в так­сономии приписать множество уточнений – словосочетаний, объясняющих еесодержание.Задача пополнения таксономии достаточно широко освещена в литерату­ре. Во всех работах, посвященных пополнению таксономий, возникает общийвопроса: что должно служить источником новых тем. Иногда, например в [85],предлагается использовать результаты поиска вида “А состоит из . .

. ”, “А –это . . . ”, где А – тема таксономии, которую следует достроить. Из результа­72тов такого поиска достаточно просто извлечь подтемы темы А. Другой способпредложен в [86]: если таксономия описана посредством формального языка ти­па OWL, ее несложно пополнить темами другой таксономии, тоже описаннойна OWL. Следовательно, источником тем для пополнения могут служить нетолько коллекции текстов, но и другие таксономии или онтологии. Несколькокомпромиссным решением является использование Википедии в качестве источ­ника новых тем [85; 87—89], поскольку Википедия содержит как неструктуриро­ванные данные, так и структурированные, причем и те, и другие подчиняютсяобщей организации.

В [90] перечислены существенные преимущества Википе­дии в качестве источника тем для построения и для пополнения таксономий:– Википедия постоянно обновляется, поэтому таксономии, построенныена основе Википедии легко обновлять;– Википедия мультиязычна, поэтому любой метод, разработанный дляодного языка, может быть перенесен на другой язык.В работах [85; 87—89] представлены разные подходы к построению [87; 88]или пополнения [85; 89]. В [85] в качестве источника тем использованы инфо­боксы, в [87] – и тексты статей, и названия категорий, в [88] – только текстыстатей, а в [89] – только названия категорий. Мы использовали структуру дере­ва категорий, названия категорий, названия статей и тексты статей в качествеисточника новых тем и уточнений, и ограничивались только категориями “Тео­рия вероятностей и математическая статистика” и “Численные методы”.Метод пополнения таксономии ReTAST-w состоит из двух частей.

На пер­вом, неавтоматическом этапе метода ReTAST-w требуется определить предмет­ную область таксономии, зафиксировать ее основу и выбрать соответствующуюкатегорию в Википедии, данные из которой будут использованы для пополне­ния таксономии. Далее мы будем использовать дерево категорий Википедиидля наращивания дерева таксономии: к каждой теме исходной таксономии мыбудем достраивать категории. При этом, будем проверять, стоит ли оставлятьв достроенной категории подкатегории, или подкатегории стоит так же достра­ивать к одной из тем исходной таксономии. Поскольку почти в каждой кате­гории есть статьи, названия статей мы будем использовать в качестве листьевв новой таксономии.

Из текстов статей мы будем извлекать уточнения листьевлистьев – ключевые слова и словосочетания, которые описывают содержаниелиста. Таким образом, достроенная таксономия будем удовлетворять золотомустандарту таксономии ACM: каждый раздел в дереве будет примерно одной и73Рисунок 4.1 — Схема пополнения таксономии. В прямоугольниках находятсятемы основы таксономии, в скругленный прямоугольниках – достроенныекатегории и подкатегории Википедии. Листья достроенной таксономии –названия статей Википедии – помещены в овалы. В облачках находятсяуточнения листьев.той же глубины, у каждого узла будет примерно одно и то же количество по­томком, а листья в таксономии будут снабжены уточнениями, играющими рольподразделений понятий, представленных листьями.Структура любой Википедии, в том числе, и русскоязычной, довольнозашумлена.

Строго говоря, дерево категорий является не деревом, а графом,поскольку содержит циклы. Иногда между категорий и ее подкатегорией нетникакой логической и смысловой связи, не говоря уж о связях с категориямина два или три уровня ниже. Например, категория “Убитые случайно” лежитв категории “Случайность”. Объяснение этому феномену дано в [91]: авторыВикипедии считают, что каждую статью и подкатегорию нужно помещать вкак можно большее число категорий для упрощения навигации. Таким обра­зом, данные, извлеченные из Википедии необходимо предварительно очиститьот шума перед тем, как использовать их для пополнения таксономии. Требу­ется удалить цикли из дерева категорий, если они в нем есть, и оставить вдереве только такие подкатегории и статьи, которые имеют логическую и смыс­ловую связь с родительсикми категориями.

Нам, в некотором смысле повез­ло, и деревья категорий “Теория вероятностей и математическая статистика”и “Численные методы” содержали только один цикл (“Машинное обучение” –“Оптимизация” – “Поисковая система” – “Машинное обучение”), который лег­ко разрешить вручную путем удаления связи между “Поисковой системой” и74“Машинным обучением”, поэтому нам осталась только очистка этих деревьевкатегорий от шума.Основные шаги автоматического этапа метода ReTAST-w таковы:1. Извлечение дерева категорий и статей из Википедии2. Очистка дерева категорий от иррелевантных статей3.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее