Диссертация (1137218), страница 18
Текст из файла (страница 18)
Поэтому в алгоритм былодобавленодовольнопростоедополнительноеограничение‒отбрасывать понятия с объектами, у которых разные имена илифамилии.Стоитотметить,чтоподобноеограничениенераспространяется на все признаки, так как они могут меняться современем.Далее метод использовался с дополнительными условиями.Алгоритм выделил 905 групп объектов. Размеры групп варьируются124от 2 до 41 объекта. Наиболее крупные группы, выделенныеалгоритмом, описывают Нетаньяху Биньямина (41 объект), ЮлиюТимошенко (35 объектов), Владимира Путина (34 объекта), ДмитрияМедведева (33 объекта), Стива Джобса (31 объект) и др.
Но основнаячасть выделенных групп состоит из 2-3 объектов.В результате оценки результатов работы алгоритма былиполучены оценки точности алгоритма. В 98% групп с высокойвероятностью можно утверждать, что объединенные в них объектыявляются тождественными. Часто это следует из наличия у объектовтаких общих признаков, как фамилия и имя.
Также нередковстречаются группы, где данные признаки не являются общими, но подругим признакам и связям объекты объединяются в одну группу.Например, в онтологии было выявлено 7 объектов, описывающихКсениюСобчак.Приэтомчастьобъектовимелипризнаки«Фамилия:Собчак», «Имя:Ксения»”, другая часть имели признаки«Имя:Ксения», «Отчество:Анатольевна». Несмотря на то что уобъектов всего один общий признак (имя), за счет общих связей быловыявлено, что это один и тот же объект. Аналогичная ситуация собъединением объекта с признаком «Имя:Усама» и объекта спризнаком «Фамилия:Ладен».Стоит также отметить, что наличие весов у признаков в индексеI 2 позволяет выделять большие группы объектов, описывающиеПутина, Тимошенко, Медведева и т.д. Особенности данных объектовв тот, что каждый и них имеет большое количество собственныхпризнаков, связей, поэтому расстояние Хэмминга между этимиобъектами довольно большое, а число общих признаков небольшое.Поэтому рассмотренные альтернативы, основанные на попарномсравнении объектов, плохо работают на данных объектах.
При этом125формальное понятие, содержание которого состоит из имени ифамилии персоны, имеет высокое значение индекса DII, так какобъектыпонятиясоставляютзначительнуючастьобъектов,обладающих данными признаками. При этом его подпонятия имеютболее низкое значение индекса DII.4.5 ВыводыВ данной главе был предложен алгоритм поиска тождественныхобъектов в прикладной онтологии (и формальном контексте),основанный на методах анализа формальных понятий. Метод состоитиз двух основных этапов: преобразование онтологии в формальныйконтекст и формирование списков тождественных объектов спомощью отбора формальных понятий. Помимо метода решениязадачибылразработаниндекс,позволяющийранжироватьформальные понятия по степени уверенности в том, что объектыданного понятия тождественны.Былирассмотреныальтернативныеметодырешенияпоставленной задачи, основанные на попарном сравнении объектов.Также был рассмотрен альтернативный критерий отбора формальныхпонятий, основанный на применении индекса экстенсиональнойустойчивости.Был произведен сравнительный анализ разработанного метода сего альтернативами и выявлены основные свойства всех методов.Сравнение методов производилось на случайно сгенерированныхданных.
При генерации были учтены все выявленные свойствареальной онтологии, что позволяет результаты, полученные насгенерированных данных, перенести на реальные онтологии. Длясравнениябылииспользованыосновныеметрикикачестваклассификаторов (полнота, точность) и методов ранжирования (MAP).126Экспериментынасгенерированныхданныхпродемонстрировали преимущества нового метода. Эксперименты нареальных данных показали, что разработанные метод и критерий дляфильтрации понятий довольно эффективны. На реальной онтологииалгоритм допустил всего несколько грубых ошибок, но придобавлении простейших дополнительных условий при отборе понятийалгоритмпоказалвысокуюточность.Экспертнаясформированных групп объектов не выявила явных ошибок.оценка1275. Программные комплексы обработки текстовых данныхна основе решеток замкнутых описаний5.1 Программный комплекс FCART5.1.1 ВведениеFormalConceptAnalysisResearchToolbox(FCART)–программный комплекс анализа данных методами АФП [26].
Этотпродукт ориентирован на исследователей, пользующихся в основномметодами Анализа Формальных Понятий, причём исходные данныедля анализа уже представлены в виде, удобном для преобразования вобъектно-признаковую форму.Сейчас специалистам в области АФП известно несколькопрограммных инструментов, таких как ConExp [11], Conexp-clj [24],Galicia [104], Tockit [25], ToscanaJ [105], FCAStone [106], Lattice Miner[107], OpenFCA [108]. Как правило, эти программы написаны на языкеJava, являются кроссплатформенными и не требуют сложногоразвёртывания. Однако они не могут полностью удовлетворитьзапросы АФП-сообщества.
Есть несколько областей, которые требуютсерьёзных улучшений: средства подготовки данных (препроцессинга),расширяемостьимасштабируемость,атакжеотсутствиеуниверсальности и «отсталый» интерфейс с пользователем. Можноконстатировать отсутствие универсальной интегрированной средыдля поддержки разработки данных, выявления знаний и решениядругих задач методами АФП. Некоторые усилия в этом направленииприложили создатели Tockit [25], но затем основные усилияразработчиков переключились на создание ToscanaJ, которая сталаспециализированным продуктом.
Таким образом, мотивацией дляразработки FCART [40, 41] явилось создание универсального средстваподдержки полного цикла исследований с использованием АФП.1285.1.2 Базовые понятия5.1.2.1 Аналитические артефактыТермин«аналитическийартефакт»используетсядляобозначения абстрактного типа данных, описывающего некоторуюсущность, возникающую в ходе анализа данных. Введение данноготермина полезно, так как многие сущности встречаются многократно,могут быть формально описаны и типизированы.
Например, в АФПфундаментальным артефактом является «формальный контекст», тоесть объектно-признаковое представление части прикладной области.Другие важнейшие артефакты – «формальное понятие» и «решёткаформальных понятий».Артефактысвязаныотношениями«являтьсяисточникомданных для порождения». Например, из формального контекстаможно получить решётку формальных понятий. В этом случаеконтекст является входом для алгоритма построения решётки. Другойпример – порождение ассоциативных правил на основе решётки.Впроцессеанализаданныхисследовательработаетсэкземплярами артефактов, то есть с конкретными данными.
Любойэкземпляр артефакта является «неизменяемым» [immutable]. Этозначит, что пользователь не может изменить его после создания, хотяи может визуализировать в различных представлениях, включаяинтерактивные.Имея предопределённый набор артефактов, поддерживаемыхпрограммой, мы можем использовать термины «тип» и «экземпляр»для различения абстрактного типа данных и конкретной порции этихданных. Но в большинстве случаев эти приставки к слову «артефакт»можно опускать без появления неоднозначности.129Коллекция всех экземпляров артефактов, накопленных впроцессеисследования,называется«аналитическойсессией».Артефакты, которые сгенерированы на основе внешних данных,считаются базовыми.5.1.2.2 РешателиАртефакты порождаются (или генерируются) решателями(solvers).
Каждый решатель представляет собой реализацию алгоритмапостроения одного набора артефактов на основе другого набора.Именнорешательфактическизадаётотношение«являтьсяисточником данных для» между артефактами.Тип решателя – формальное описание его входов и выходов ввиде двух последовательностей типов артефактов. Понятно, чтопрограмма может содержать несколько решателей одного типа,отличающихся используемыми алгоритмами, что может приводить кразличиям в вычислительной сложности.Использование методологии «решатель-артефакт» обусловленовполнеконкретнымитехнологическимипричинами.Имеяпредопределённый набор артефактов и решателей, программа можетподдерживать целостность аналитической сессии. Без явного действияпользователя, программа не может удалить экземпляры артефактов.Напротив, для любого артефакта предусмотрена возможность перейтикего«предкам»или«потомкам»:здесьимеетсяввидупоследовательность их генерации.5.1.2.3 ВизуализаторыВизуализатор артефакта – это специальный вид решателя,который создаёт визуальное представление входного экземпляраартефакта заданного типа.