Главная » Просмотр файлов » Диссертация

Диссертация (1137218), страница 18

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 18 страницаДиссертация (1137218) страница 182019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 18)

Поэтому в алгоритм былодобавленодовольнопростоедополнительноеограничение‒отбрасывать понятия с объектами, у которых разные имена илифамилии.Стоитотметить,чтоподобноеограничениенераспространяется на все признаки, так как они могут меняться современем.Далее метод использовался с дополнительными условиями.Алгоритм выделил 905 групп объектов. Размеры групп варьируются124от 2 до 41 объекта. Наиболее крупные группы, выделенныеалгоритмом, описывают Нетаньяху Биньямина (41 объект), ЮлиюТимошенко (35 объектов), Владимира Путина (34 объекта), ДмитрияМедведева (33 объекта), Стива Джобса (31 объект) и др.

Но основнаячасть выделенных групп состоит из 2-3 объектов.В результате оценки результатов работы алгоритма былиполучены оценки точности алгоритма. В 98% групп с высокойвероятностью можно утверждать, что объединенные в них объектыявляются тождественными. Часто это следует из наличия у объектовтаких общих признаков, как фамилия и имя.

Также нередковстречаются группы, где данные признаки не являются общими, но подругим признакам и связям объекты объединяются в одну группу.Например, в онтологии было выявлено 7 объектов, описывающихКсениюСобчак.Приэтомчастьобъектовимелипризнаки«Фамилия:Собчак», «Имя:Ксения»”, другая часть имели признаки«Имя:Ксения», «Отчество:Анатольевна». Несмотря на то что уобъектов всего один общий признак (имя), за счет общих связей быловыявлено, что это один и тот же объект. Аналогичная ситуация собъединением объекта с признаком «Имя:Усама» и объекта спризнаком «Фамилия:Ладен».Стоит также отметить, что наличие весов у признаков в индексеI 2 позволяет выделять большие группы объектов, описывающиеПутина, Тимошенко, Медведева и т.д. Особенности данных объектовв тот, что каждый и них имеет большое количество собственныхпризнаков, связей, поэтому расстояние Хэмминга между этимиобъектами довольно большое, а число общих признаков небольшое.Поэтому рассмотренные альтернативы, основанные на попарномсравнении объектов, плохо работают на данных объектах.

При этом125формальное понятие, содержание которого состоит из имени ифамилии персоны, имеет высокое значение индекса DII, так какобъектыпонятиясоставляютзначительнуючастьобъектов,обладающих данными признаками. При этом его подпонятия имеютболее низкое значение индекса DII.4.5 ВыводыВ данной главе был предложен алгоритм поиска тождественныхобъектов в прикладной онтологии (и формальном контексте),основанный на методах анализа формальных понятий. Метод состоитиз двух основных этапов: преобразование онтологии в формальныйконтекст и формирование списков тождественных объектов спомощью отбора формальных понятий. Помимо метода решениязадачибылразработаниндекс,позволяющийранжироватьформальные понятия по степени уверенности в том, что объектыданного понятия тождественны.Былирассмотреныальтернативныеметодырешенияпоставленной задачи, основанные на попарном сравнении объектов.Также был рассмотрен альтернативный критерий отбора формальныхпонятий, основанный на применении индекса экстенсиональнойустойчивости.Был произведен сравнительный анализ разработанного метода сего альтернативами и выявлены основные свойства всех методов.Сравнение методов производилось на случайно сгенерированныхданных.

При генерации были учтены все выявленные свойствареальной онтологии, что позволяет результаты, полученные насгенерированных данных, перенести на реальные онтологии. Длясравнениябылииспользованыосновныеметрикикачестваклассификаторов (полнота, точность) и методов ранжирования (MAP).126Экспериментынасгенерированныхданныхпродемонстрировали преимущества нового метода. Эксперименты нареальных данных показали, что разработанные метод и критерий дляфильтрации понятий довольно эффективны. На реальной онтологииалгоритм допустил всего несколько грубых ошибок, но придобавлении простейших дополнительных условий при отборе понятийалгоритмпоказалвысокуюточность.Экспертнаясформированных групп объектов не выявила явных ошибок.оценка1275. Программные комплексы обработки текстовых данныхна основе решеток замкнутых описаний5.1 Программный комплекс FCART5.1.1 ВведениеFormalConceptAnalysisResearchToolbox(FCART)–программный комплекс анализа данных методами АФП [26].

Этотпродукт ориентирован на исследователей, пользующихся в основномметодами Анализа Формальных Понятий, причём исходные данныедля анализа уже представлены в виде, удобном для преобразования вобъектно-признаковую форму.Сейчас специалистам в области АФП известно несколькопрограммных инструментов, таких как ConExp [11], Conexp-clj [24],Galicia [104], Tockit [25], ToscanaJ [105], FCAStone [106], Lattice Miner[107], OpenFCA [108]. Как правило, эти программы написаны на языкеJava, являются кроссплатформенными и не требуют сложногоразвёртывания. Однако они не могут полностью удовлетворитьзапросы АФП-сообщества.

Есть несколько областей, которые требуютсерьёзных улучшений: средства подготовки данных (препроцессинга),расширяемостьимасштабируемость,атакжеотсутствиеуниверсальности и «отсталый» интерфейс с пользователем. Можноконстатировать отсутствие универсальной интегрированной средыдля поддержки разработки данных, выявления знаний и решениядругих задач методами АФП. Некоторые усилия в этом направленииприложили создатели Tockit [25], но затем основные усилияразработчиков переключились на создание ToscanaJ, которая сталаспециализированным продуктом.

Таким образом, мотивацией дляразработки FCART [40, 41] явилось создание универсального средстваподдержки полного цикла исследований с использованием АФП.1285.1.2 Базовые понятия5.1.2.1 Аналитические артефактыТермин«аналитическийартефакт»используетсядляобозначения абстрактного типа данных, описывающего некоторуюсущность, возникающую в ходе анализа данных. Введение данноготермина полезно, так как многие сущности встречаются многократно,могут быть формально описаны и типизированы.

Например, в АФПфундаментальным артефактом является «формальный контекст», тоесть объектно-признаковое представление части прикладной области.Другие важнейшие артефакты – «формальное понятие» и «решёткаформальных понятий».Артефактысвязаныотношениями«являтьсяисточникомданных для порождения». Например, из формального контекстаможно получить решётку формальных понятий. В этом случаеконтекст является входом для алгоритма построения решётки. Другойпример – порождение ассоциативных правил на основе решётки.Впроцессеанализаданныхисследовательработаетсэкземплярами артефактов, то есть с конкретными данными.

Любойэкземпляр артефакта является «неизменяемым» [immutable]. Этозначит, что пользователь не может изменить его после создания, хотяи может визуализировать в различных представлениях, включаяинтерактивные.Имея предопределённый набор артефактов, поддерживаемыхпрограммой, мы можем использовать термины «тип» и «экземпляр»для различения абстрактного типа данных и конкретной порции этихданных. Но в большинстве случаев эти приставки к слову «артефакт»можно опускать без появления неоднозначности.129Коллекция всех экземпляров артефактов, накопленных впроцессеисследования,называется«аналитическойсессией».Артефакты, которые сгенерированы на основе внешних данных,считаются базовыми.5.1.2.2 РешателиАртефакты порождаются (или генерируются) решателями(solvers).

Каждый решатель представляет собой реализацию алгоритмапостроения одного набора артефактов на основе другого набора.Именнорешательфактическизадаётотношение«являтьсяисточником данных для» между артефактами.Тип решателя – формальное описание его входов и выходов ввиде двух последовательностей типов артефактов. Понятно, чтопрограмма может содержать несколько решателей одного типа,отличающихся используемыми алгоритмами, что может приводить кразличиям в вычислительной сложности.Использование методологии «решатель-артефакт» обусловленовполнеконкретнымитехнологическимипричинами.Имеяпредопределённый набор артефактов и решателей, программа можетподдерживать целостность аналитической сессии. Без явного действияпользователя, программа не может удалить экземпляры артефактов.Напротив, для любого артефакта предусмотрена возможность перейтикего«предкам»или«потомкам»:здесьимеетсяввидупоследовательность их генерации.5.1.2.3 ВизуализаторыВизуализатор артефакта – это специальный вид решателя,который создаёт визуальное представление входного экземпляраартефакта заданного типа.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6374
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее