Диссертация (1137241), страница 17
Текст из файла (страница 17)
Оптимальные пороги для методов и качество поискаАлгоритмПорог валгоритмеПолнотаТочностьНа основе абсолютного расстояния3.5019.35%98.82%На основе расстояния Хэмминга0.5034.37%86.32%На основе индекса устойчивости0.5022.44%100%На основе нового индекса DII 1.1540.09%99.58%На основе нового индекса DII0.9031.80%99.55%4.4.2 Эксперименты на прикладной онтологии4.4.2.1 Описание прикладной онтологииОнтология, на которой был апробирован предложенныйалгоритм, была построена компанией Авикомп.
Онтология строиласьи расширялась автоматически путем семантической обработки потокановостных сайтов программным средством OntosMiner [22].По обработанному документу строится небольшая онтология собъектами и связями, выделенными в тексте. Затем онтологиядокумента сливается с основной онтологией. Во время слиянияпроисходит поиск тождественных объектов среди объектов основнойонтологии и онтологии документа методом на основе расстоянияХэмминга с дополнительными эвристиками. При этом часто объекты,являющиеся тождественными, не идентифицируются как один объект,иврезультатевонтологиивозникаетбольшоеколичествотождественных объектов, создающих избыточность в данных.Анализируемая онтология была построена по новостнымдокументам политической направленности.
Она содержит 12006объектов различных классов. Объекты имеют различное количествопризнаков и связей с другими объектами. Количество признаков исвязей с другими объектами распределено по закону Ципфа.120Ванализируемойонтологиибылпроведенпоисктождественных денотатов среди объектов классов «Персона» и«Компания».Такихобъектоввонтологии9821.Признакиформального контекста строились с использованием всех объектов исвязей в онтологии.4.4.2.2 Анализ результатовДля получения точных оценок полноты и точности алгоритмовнеобходимо иметь информацию о том, какие объекты являютсятождественными. Данную информацию можно получить лишь спомощью экспертной оценки коллекции обработанных документов. Ксожалению, в силу специфики задачи (автоматическое построениеонтологии и большой объем исходных документов), получить точнуюоценку полноты не представляется возможным.Изначально алгоритм на основе индекса DII (использовалсявариант DII ) выделил около 900 групп объектов.
В результатеэкспертной оценки было выявлено несколько ошибок. Алгоритмобъединил объекты с разными именами/фамилиями, которые имелибольшое количество общих связей и признаков (партнеры, коллеги).Ошибка возникает из-за того, что алгоритм не учитывает, чторазличные значения некоторых конкретных признаков говорят о том,что объекты не являются тождественными. Поэтому в алгоритм былодобавленодовольнопростоедополнительноеограничение‒отбрасывать понятия с объектами, у которых разные имена илифамилии.Стоитотметить,чтоподобноеограничениенераспространяется на все признаки, так как они могут меняться современем.Далее метод использовался с дополнительными условиями.Алгоритм выделил 905 групп объектов.
Размеры групп варьируются121от 2 до 41 объекта. Наиболее крупные группы, выделенныеалгоритмом, описывают Нетаньяху Биньямина (41 объект), ЮлиюТимошенко (35 объектов), Владимира Путина (34 объекта), ДмитрияМедведева (33 объекта), Стива Джобса (31 объект) и др. Но основнаячасть выделенных групп состоит из 2-3 объектов.В результате оценки результатов работы алгоритма былиполучены оценки точности алгоритма. В 98% групп с высокойвероятностью можно утверждать, что объединенные в них объектыявляются тождественными.
Часто это следует из наличия у объектовтаких общих признаков, как фамилия и имя. Также нередковстречаются группы, где данные признаки не являются общими, но подругим признакам и связям объекты объединяются в одну группу.Например, в онтологии было выявлено 7 объектов, описывающихКсениюСобчак.Приэтомчастьобъектовимелипризнаки«Фамилия:Собчак», «Имя:Ксения»”, другая часть имели признаки«Имя:Ксения», «Отчество:Анатольевна». Несмотря на то что уобъектов всего один общий признак (имя), за счет общих связей быловыявлено, что это один и тот же объект. Аналогичная ситуация собъединением объекта с признаком «Имя:Усама» и объекта спризнаком «Фамилия:Ладен».Стоит также отметить, что наличие весов у признаков в индексеI 2 позволяет выделять большие группы объектов, описывающиеПутина, Тимошенко, Медведева и т.д. Особенности данных объектовв тот, что каждый и них имеет большое количество собственныхпризнаков, связей, поэтому расстояние Хэмминга между этимиобъектами довольно большое, а число общих признаков небольшое.Поэтому рассмотренные альтернативы, основанные на попарномсравнении объектов, плохо работают на данных объектах.
При этом122формальное понятие, содержание которого состоит из имени ифамилии персоны, имеет высокое значение индекса DII, так какобъектыпонятиясоставляютзначительнуючастьобъектов,обладающих данными признаками. При этом его подпонятия имеютболее низкое значение индекса DII.4.5 ВыводыВ данной главе был предложен алгоритм поиска тождественныхобъектов в прикладной онтологии (и формальном контексте),основанный на методах анализа формальных понятий. Метод состоитиз двух основных этапов: преобразование онтологии в формальныйконтекст и формирование списков тождественных объектов спомощью отбора формальных понятий. Помимо метода решениязадачибылразработаниндекс,позволяющийранжироватьформальные понятия по степени уверенности в том, что объектыданного понятия тождественны.Былирассмотреныальтернативныеметодырешенияпоставленной задачи, основанные на попарном сравнении объектов.Также был рассмотрен альтернативный критерий отбора формальныхпонятий, основанный на применении индекса экстенсиональнойустойчивости.Был произведен сравнительный анализ разработанного метода сего альтернативами и выявлены основные свойства всех методов.Сравнение методов производилось на случайно сгенерированныхданных.
При генерации были учтены все выявленные свойствареальной онтологии, что позволяет результаты, полученные насгенерированных данных, перенести на реальные онтологии. Длясравнениябылииспользованыосновныеметрикикачестваклассификаторов (полнота, точность) и методов ранжирования (MAP).123Экспериментынасгенерированныхданныхпродемонстрировали преимущества нового метода. Эксперименты нареальных данных показали, что разработанные метод и критерий дляфильтрации понятий довольно эффективны.
На реальной онтологииалгоритм допустил всего несколько грубых ошибок, но придобавлении простейших дополнительных условий при отборе понятийалгоритмпоказалвысокуюточность.Экспертнаясформированных групп объектов не выявила явных ошибок.оценка1245. Программные комплексы обработки текстовых данныхна основе решеток замкнутых описаний5.1 Программный комплекс FCART5.1.1 ВведениеFormalConceptAnalysisResearchToolbox(FCART)–программный комплекс анализа данных методами АФП [16]. Этотпродукт ориентирован на исследователей, пользующихся в основномметодами Анализа Формальных Понятий, причём исходные данныедля анализа уже представлены в виде, удобном для преобразования вобъектно-признаковую форму.Сейчас специалистам в области АФП известно несколькопрограммных инструментов, таких как ConExp [10], Conexp-clj [77],Galicia [78], Tockit [79], ToscanaJ [80], FCAStone [81], Lattice Miner[82], OpenFCA [83].
Как правило, эти программы написаны на языкеJava, являются кроссплатформенными и не требуют сложногоразвёртывания. Однако они не могут полностью удовлетворитьзапросы АФП-сообщества. Есть несколько областей, которые требуютсерьёзных улучшений: средства подготовки данных (препроцессинга),расширяемостьимасштабируемость,атакжеотсутствиеуниверсальности и «отсталый» интерфейс с пользователем. Можноконстатировать отсутствие универсальной интегрированной средыдля поддержки разработки данных, выявления знаний и решениядругих задач методами АФП. Некоторые усилия в этом направленииприложили создатели Tockit [79], но затем основные усилияразработчиков переключились на создание ToscanaJ, которая сталаспециализированным продуктом. Таким образом, мотивацией дляразработки FCART [31] явилось создание универсального средстваподдержки полного цикла исследований с использованием АФП.1255.1.2 Базовые понятия5.1.2.1 Аналитические артефактыТермин«аналитическийартефакт»используетсядляобозначения абстрактного типа данных, описывающего некоторуюсущность, возникающую в ходе анализа данных.
Введение данноготермина полезно, так как многие сущности встречаются многократно,могут быть формально описаны и типизированы. Например, в АФПфундаментальным артефактом является «формальный контекст», тоесть объектно-признаковое представление части прикладной области.Другие важнейшие артефакты – «формальное понятие» и «решёткаформальных понятий».Артефактысвязаныотношениями«являтьсяисточникомданных для порождения». Например, из формального контекстаможно получить решётку формальных понятий.