Диссертация (1137241), страница 17

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 17 страницаДиссертация (1137241) страница 172019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 17)

Оптимальные пороги для методов и качество поискаАлгоритмПорог валгоритмеПолнотаТочностьНа основе абсолютного расстояния3.5019.35%98.82%На основе расстояния Хэмминга0.5034.37%86.32%На основе индекса устойчивости0.5022.44%100%На основе нового индекса DII 1.1540.09%99.58%На основе нового индекса DII0.9031.80%99.55%4.4.2 Эксперименты на прикладной онтологии4.4.2.1 Описание прикладной онтологииОнтология, на которой был апробирован предложенныйалгоритм, была построена компанией Авикомп.

Онтология строиласьи расширялась автоматически путем семантической обработки потокановостных сайтов программным средством OntosMiner [22].По обработанному документу строится небольшая онтология собъектами и связями, выделенными в тексте. Затем онтологиядокумента сливается с основной онтологией. Во время слиянияпроисходит поиск тождественных объектов среди объектов основнойонтологии и онтологии документа методом на основе расстоянияХэмминга с дополнительными эвристиками. При этом часто объекты,являющиеся тождественными, не идентифицируются как один объект,иврезультатевонтологиивозникаетбольшоеколичествотождественных объектов, создающих избыточность в данных.Анализируемая онтология была построена по новостнымдокументам политической направленности.

Она содержит 12006объектов различных классов. Объекты имеют различное количествопризнаков и связей с другими объектами. Количество признаков исвязей с другими объектами распределено по закону Ципфа.120Ванализируемойонтологиибылпроведенпоисктождественных денотатов среди объектов классов «Персона» и«Компания».Такихобъектоввонтологии9821.Признакиформального контекста строились с использованием всех объектов исвязей в онтологии.4.4.2.2 Анализ результатовДля получения точных оценок полноты и точности алгоритмовнеобходимо иметь информацию о том, какие объекты являютсятождественными. Данную информацию можно получить лишь спомощью экспертной оценки коллекции обработанных документов. Ксожалению, в силу специфики задачи (автоматическое построениеонтологии и большой объем исходных документов), получить точнуюоценку полноты не представляется возможным.Изначально алгоритм на основе индекса DII (использовалсявариант DII  ) выделил около 900 групп объектов.

В результатеэкспертной оценки было выявлено несколько ошибок. Алгоритмобъединил объекты с разными именами/фамилиями, которые имелибольшое количество общих связей и признаков (партнеры, коллеги).Ошибка возникает из-за того, что алгоритм не учитывает, чторазличные значения некоторых конкретных признаков говорят о том,что объекты не являются тождественными. Поэтому в алгоритм былодобавленодовольнопростоедополнительноеограничение‒отбрасывать понятия с объектами, у которых разные имена илифамилии.Стоитотметить,чтоподобноеограничениенераспространяется на все признаки, так как они могут меняться современем.Далее метод использовался с дополнительными условиями.Алгоритм выделил 905 групп объектов.

Размеры групп варьируются121от 2 до 41 объекта. Наиболее крупные группы, выделенныеалгоритмом, описывают Нетаньяху Биньямина (41 объект), ЮлиюТимошенко (35 объектов), Владимира Путина (34 объекта), ДмитрияМедведева (33 объекта), Стива Джобса (31 объект) и др. Но основнаячасть выделенных групп состоит из 2-3 объектов.В результате оценки результатов работы алгоритма былиполучены оценки точности алгоритма. В 98% групп с высокойвероятностью можно утверждать, что объединенные в них объектыявляются тождественными.

Часто это следует из наличия у объектовтаких общих признаков, как фамилия и имя. Также нередковстречаются группы, где данные признаки не являются общими, но подругим признакам и связям объекты объединяются в одну группу.Например, в онтологии было выявлено 7 объектов, описывающихКсениюСобчак.Приэтомчастьобъектовимелипризнаки«Фамилия:Собчак», «Имя:Ксения»”, другая часть имели признаки«Имя:Ксения», «Отчество:Анатольевна». Несмотря на то что уобъектов всего один общий признак (имя), за счет общих связей быловыявлено, что это один и тот же объект. Аналогичная ситуация собъединением объекта с признаком «Имя:Усама» и объекта спризнаком «Фамилия:Ладен».Стоит также отметить, что наличие весов у признаков в индексеI 2 позволяет выделять большие группы объектов, описывающиеПутина, Тимошенко, Медведева и т.д. Особенности данных объектовв тот, что каждый и них имеет большое количество собственныхпризнаков, связей, поэтому расстояние Хэмминга между этимиобъектами довольно большое, а число общих признаков небольшое.Поэтому рассмотренные альтернативы, основанные на попарномсравнении объектов, плохо работают на данных объектах.

При этом122формальное понятие, содержание которого состоит из имени ифамилии персоны, имеет высокое значение индекса DII, так какобъектыпонятиясоставляютзначительнуючастьобъектов,обладающих данными признаками. При этом его подпонятия имеютболее низкое значение индекса DII.4.5 ВыводыВ данной главе был предложен алгоритм поиска тождественныхобъектов в прикладной онтологии (и формальном контексте),основанный на методах анализа формальных понятий. Метод состоитиз двух основных этапов: преобразование онтологии в формальныйконтекст и формирование списков тождественных объектов спомощью отбора формальных понятий. Помимо метода решениязадачибылразработаниндекс,позволяющийранжироватьформальные понятия по степени уверенности в том, что объектыданного понятия тождественны.Былирассмотреныальтернативныеметодырешенияпоставленной задачи, основанные на попарном сравнении объектов.Также был рассмотрен альтернативный критерий отбора формальныхпонятий, основанный на применении индекса экстенсиональнойустойчивости.Был произведен сравнительный анализ разработанного метода сего альтернативами и выявлены основные свойства всех методов.Сравнение методов производилось на случайно сгенерированныхданных.

При генерации были учтены все выявленные свойствареальной онтологии, что позволяет результаты, полученные насгенерированных данных, перенести на реальные онтологии. Длясравнениябылииспользованыосновныеметрикикачестваклассификаторов (полнота, точность) и методов ранжирования (MAP).123Экспериментынасгенерированныхданныхпродемонстрировали преимущества нового метода. Эксперименты нареальных данных показали, что разработанные метод и критерий дляфильтрации понятий довольно эффективны.

На реальной онтологииалгоритм допустил всего несколько грубых ошибок, но придобавлении простейших дополнительных условий при отборе понятийалгоритмпоказалвысокуюточность.Экспертнаясформированных групп объектов не выявила явных ошибок.оценка1245. Программные комплексы обработки текстовых данныхна основе решеток замкнутых описаний5.1 Программный комплекс FCART5.1.1 ВведениеFormalConceptAnalysisResearchToolbox(FCART)–программный комплекс анализа данных методами АФП [16]. Этотпродукт ориентирован на исследователей, пользующихся в основномметодами Анализа Формальных Понятий, причём исходные данныедля анализа уже представлены в виде, удобном для преобразования вобъектно-признаковую форму.Сейчас специалистам в области АФП известно несколькопрограммных инструментов, таких как ConExp [10], Conexp-clj [77],Galicia [78], Tockit [79], ToscanaJ [80], FCAStone [81], Lattice Miner[82], OpenFCA [83].

Как правило, эти программы написаны на языкеJava, являются кроссплатформенными и не требуют сложногоразвёртывания. Однако они не могут полностью удовлетворитьзапросы АФП-сообщества. Есть несколько областей, которые требуютсерьёзных улучшений: средства подготовки данных (препроцессинга),расширяемостьимасштабируемость,атакжеотсутствиеуниверсальности и «отсталый» интерфейс с пользователем. Можноконстатировать отсутствие универсальной интегрированной средыдля поддержки разработки данных, выявления знаний и решениядругих задач методами АФП. Некоторые усилия в этом направленииприложили создатели Tockit [79], но затем основные усилияразработчиков переключились на создание ToscanaJ, которая сталаспециализированным продуктом. Таким образом, мотивацией дляразработки FCART [31] явилось создание универсального средстваподдержки полного цикла исследований с использованием АФП.1255.1.2 Базовые понятия5.1.2.1 Аналитические артефактыТермин«аналитическийартефакт»используетсядляобозначения абстрактного типа данных, описывающего некоторуюсущность, возникающую в ходе анализа данных.

Введение данноготермина полезно, так как многие сущности встречаются многократно,могут быть формально описаны и типизированы. Например, в АФПфундаментальным артефактом является «формальный контекст», тоесть объектно-признаковое представление части прикладной области.Другие важнейшие артефакты – «формальное понятие» и «решёткаформальных понятий».Артефактысвязаныотношениями«являтьсяисточникомданных для порождения». Например, из формального контекстаможно получить решётку формальных понятий.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.