Автореферат (1137258), страница 4
Текст из файла (страница 4)
При это обучающая выборка содержит 90% , ноне больше чем 1000 объектов, что является ограничением демо-версиипрограммного обеспечения Magnum Opus (G. I. Webb & S. Zhang 2005).Это программное обеспечение используется для расчёта меры рычага,участвующей в сравнении.3. Выбирается целевой класс .4. Выбирается целевая мера качества ℳ.5. В каждой обучающей выборке, полученной на шаге 2, ищутся замкнутые закономерности и они упорядочиваются мерой ℳ. При этом меткиклассов объектов не учитываются.186. Среди всего множества закономерностей выделяются гипотезы класса ,известные также как контрастные закономерности (emerging patterns).Гипотезы – это такие закономерности, которые являются характеристическими для одного класса, то есть в поддержке такой закономерностиприсутствуют в основном (согласно порогу ) объекты класса . Такие закономерности предполагаются хорошими для задач классификации.
Пусть найдено гипотез.7. На этих гипотезах строятся классификаторов, основанных на первых < гипотезах согласно мере ℳ. Каждый такой классификаторработает следующим образом: для множества гипотез {1 , · · · , } классификатор относит любой объект к классу , чьё описание содержитхотя бы одну из множества гипотез.8. Вычисляются точность и полнота для каждого такого классификатора втестовом множестве. Эти результаты интерполируются в 21 точке следующего вида: (, ), где – это точность, а – полнота, при этом ∈ {0, 0.05, · · · , 0.95, 1}.
Эти точки задают некоторую кривую.9. Шаги 6–8 повторяются для каждой пары обучающей и тестовой подвыборки выборки . Вычисляется усреднённая кривая точности-полноты.10. Площадь под усреднённой кривой даёт численное значение качества меры ℳ на выборке по отношению к классу .11. Шаги 3–10 повторяются для всех классов в и для всех тестируемыхмер качества.12. Шаги 1-11 повторяются для все имеющихся выборок данных.Проведено сравнение следующих мер качества: поддержка, устойчивость,разница, получаемая из верхней оценки устойчивости, и рычаг. Здесь стоит отметить, что устойчивость и разница ведут себя одинаково, подтверждаяэффективность введённой оценки. Между устойчивостью и рычагом нет очевидных различий, но устойчивость может быть применена к закономерностямлюбого типа в том числе как мера качества элементарных моделей процессов,тогда как рычаг использовуется только для множеств признаков.19В заключении главы приводятся эксперименты эффективности предложенных подходов к оценке устойчивости.
С точки зрения временной эффективности предложенные методы оценки оказались существенно более эффективными, чем метод Монте-Карло, предложенный ранее. При этом комбинированный метод позволяет гарантировать точность оценки и существенно повышаетточность по сравнению с оценочным методом на неустойчивых понятиях.С точки зрения точности исследуется, как много ошибочно-устойчивыхи ошибочно-неустойчивых понятий может быть найдено, если использоватьверхнюю и нижнюю границу оценки в качестве значения устойчивости. Показывается, что нижняя оценка подходит очень близко к истинному значениюустойчивости, так как ошибочно-неустойчивых понятий практически нет, в товремя как количество ошибочно-устойчивых может доходить до 20%.Проведённые выше эксперименты показывают, что мера качества элементарных моделей по устойчивости может быть успешно применена для выделения важных элементарных моделей, что позволяет существенно уменьшитьразмер иерархической модели и делает её пригодной для экспертного анализа.Четвертая глава посвящена программному комплексу для моделированияобъектов сложной структуры на основе узорных структур.
Данный комплекспозволяет создавать модели на основе любых узорных структур и комбинировать доступные алгоритмы получения решёток формальных понятий.Для построения узорной решётки понятий достаточно немного изменить существующие алгоритмы построения решёток формальных понятий.Теоретико-множественная операция пересечения должна быть заменена на полурешёточную операцию сходства, а операция проверки того, что одно множество является подмножеством другого, должна быть заменена на проверкупоглощения одного элемента полурешётки другим. Соответственно, операции(·)′ должна быть заменена на (·)◇ .Математический формализм узорных структур позволяет работать с любыми типами полурёшеток описаний.
Полурешётка описаний задаётся неявночерез задание операции сходства. Другими словами, пользователь алгоритмически определяет операцию сходства между любыми двумя узорами интересующего его вида. Этот подход с одной стороны позволяет задавать любую20полурешёткy описаний, с другой стороны он позволяет сохранять однаждыреализованные операции сходства для повторного использования.Архитектурное решение подбиралось из следующих требований:Моделирование процессов.
Программный комплекс должен позволять моделировать процессы с состояниями сложной структуры.Гибкость. Программный комплекс должен позволять с минимальными усилиями создавать любые модели на основе узорных структур. В частности необходимо чтобы:∙ Любая узорная структура могла быть представленной в проектируемом программном обеспечении.∙ Любой алгоритм по построению решётки формальных понятий, который можно адаптировать для построения узорных структур, могбыть добавлен в систему.Эффективность.
Вычислительные затраты для расчёта узорной структурыдолжны быть минимизированы.Кроссплатформенность. Необходимо избежать зависимости от окруженияпрограммного комплекса, что позволит использовать данный комплекспод такими операционными системами, как Windows, Linux и MacOS.Общая архитектура программного комплекса показана на рисунке 2. Дляподдержки любой узорной структуры в архитектуре выделяется две подсистемы: менеджер узоров – подсистема определения полурешётки описаний,и построитель решётки. На их основании можно создать модель процессов ссостояниями сложной структуры.Предложенная архитектура была реализована в качестве отдельного программного комплекса, а также на её основе узорные структуры могут бытьвстроены в программный комплекс FCART, который разрабатывается на кафедре анализа данных и искусственного интеллекта в высшей школе экономики для моделирования и анализа данных при помощи методов АФП.21Рисунок 2: Архитектура предлагаемого программного обеспечения для работыс узоными структурами.Данный программный комплекс реализован на C++ без использования системных библиотек эффективности и возможности кроссплатформенного использования.
Программный код этого комплекса занимает около 22 тысячстрок, что соответствует 750 Кб кода, 83 функции являются внешними и могутбыть использованы при моделировании на основе узорных структур.В пятой главе приведены результаты экспериментальной апробации модели процессов с состояниями сложной структуры, методов её построенияи разработанного комплекса программ, предложенных в предыдущих главах.Эта модель применяется к исследованию посещений веб-страниц пользователями и к процессу госпитализации пациентов.
Первый эксперимент являетсятестированием модели на открытой выборке данных, в то время как второеисследование проводилось во взаимодействии с экспертами предметной области, которые положительно оценили возможности модели.Для первого эксперимента модель была построена для всех 106 записей опосещениях веб-страниц пользователями. Эксперименты показали эффективность введённой ПМД-проекции и её возможности при построении значимых22Тип проекцияЦ!П2 Ц!П3 Ц!ПИ2 Ц!ПИ3 Р!Ц!2 Р!Ц!3Время работы ()18841715106Число понятий (в тысячах)34.7 8.67185693.24.22.2Число устойчивых (Stab ≥ 0.97) 615192111731113145понятийТаблица 1: Результаты экспериментов для разных типов проекций.моделей. Также показано, что описанный в этой работе подход для построения модели по простым данным большого объёма имеет приемлемое времявычислений.
Далее разработанный в этой работе подход применялся для моделирования процесса госпитализации пациентов. В этой задаче каждому пациенту соответствует последовательность госпитализаций, задающая реализацию процесса лечения для этого пациента. Каждая госпитализация описывается местоположением больницы, причиной госпитализации и множествоммедицинских процедур, которые были применены при лечении больного. Госпитализации типичного больного может выглядеть следующим образом:⟨[CH1 , Рак, {1 , 2 }]; [CH2 , Хим.Тер., {}] * [10]⟩ .Это означает, что пациент, сначала проходил лечение в больнице CH1 , в которой у него детектировали Рак, после чего он прошёл 10 курсов химиотерапиив CH2 .
Данная выборка содержит 2400 пациентов.Таблица 1 показывает времена построения решёток узорных понятий, количество понятий в этих решётках, а также количество устойчивых понятийдля различных типов проекций. Так первый столбец соответствует проекцииЦ!П2, для которой решётка была построена за 18 секунд, в этой решёткеоколо 34700 понятий, среди которых устойчивых только 615. В имени проекции Р соответствует расположению больницы, Ц – цели госпитализации, П– множеству медицинских процедур, а И – интервалам изменений количествагоспитализаций на курс химиотерапии. Число в самом конце задаёт минимально допустимую длину подпоследовательности, т.
е. параметр ПМД-проекции.Данные проекции задают постановку тех экспериментов, которые отвечают наважные вопросы экспертов предметной области. Также эксперименты показывают, что для каждой из проекции количество ложно-устойчивых понятий,полученных по верхней оценки устойчивости, не превышает 5% от действи23тельно устойчивых понятий, и, таким образом, для данной выборки можнополучать устойчивые понятия, основываюсь только на оценке сверху. Мы видим, что данная модель может быть построена за приемлемое время и еёразмер не превышает 1000 узорных понятий или элементарных моделей, чтоявляется приемлемым для экспертного анализа.# Проекция СодержаниеУст.
Объём2Ц!П2⟨[Рак, {Апп.}]; [Хим.Подготовка, {}]; [Хим.Тер., {}]⟩42934 Ц!ПИ3 ⟨[Рак, {}]; [Хим.Подготовка, {}]; [Хим.Тер., {}] * [8, 24]⟩4193⟨[Регион А,Рак]; [Регион А,Хим.Подготовка]; · · ·5295 Р!Ц!3· · · [Конкретная больница в А,Хим.Тер.]⟩Таблица 2: Содержания интересных понятий из решёток для разных проекций. Уст. – сокращения для порядкового номера по индексу устойчивости.Хим.Тер.
означает химиотеропию, Хим.Подготовка – подготовку к химиотерапии, Апп. – оперативное лечение аппендицита.Таблица 2 показывает содержания некоторых важных понятий, полученных для определённых проекций с соответствующими поддержкой и рангомустойчивости (порядковым номером по индексу устойчивости). Такие важныепонятия организованы в иерархическую структуру и при экспертном анализеисследуются от более общих к менее общим, пока не будут найдены элементарные модели важные для решения экспертом конкретной задачи. Например,узор #2 соответствует известной в медицине практике, согласно которой приобнаружении у пациента аппендицита, необходимо также проверить его нараковые заболевания органов пищеварения. В узоре #4 мы можем увидеть количество необходимых сеансов химиотерапии – от 8 до 24.