Диссертация (1137259), страница 21
Текст из файла (страница 21)
Пусть есть сложное состояние = (, , , ), где – эторасположение больницы, – причина госпитализации, – множество медицинских процедур, а – интервал повторений. Для каждого элемента таксономии и все родители (более общие элементытаксономии) должны войти в множество , эквивалентно описывающее данное состояние . Например, если больница 1 находится наследующем пути таксономии ← ← ← 1 ,то элементы, соответствующее всем 4 уровням должны войти в ,то есть , , , 1 ∈ .Все элементы множества состояния должны также войти вмножество , ⊆ . Для обработки интервала можно применить порядковое шкалирование.
Оно задаётся следующим образом.Пусть все возможные границы интервалов содержатся в множестве , то есть, если интервал [, ] представлен в нашем множестве, то129, ∈ . Тогда для каждого ∈ создаются два признака ≤ и≥ . Затем для кодирования интервала [, ] используются все признаки вида ≤ , где ∈ и ≤ , а также все признаки вида≥ , где ∈ x ≥ . Здесь стоит отметить, что использованиетолько граничных признаков недостаточно для представление интервала, то есть нельзя задать интервал [, ] через два признака ≥ и≤ , потому что пересечение интервалов должно быть согласовано спересечением атрибутов.Такое преобразование данных позволяет обрабатывать процессгоспитализаций с помощью современных эффективных алгоритмовобработки последовательностей, таких как CloSpan [129].
Напомним также, что существует подход M3 SP [99], который умеет обрабатывать многокомпонентные состояния, с таксономией заданной накаждой компоненте. В нашем случае может быть применена толькорасширенная версия M3 SP, введённая в [33], которая также допускаетиспользование множеств в любых компонентах. Таким образом намбудет необходимо только отшкалировать компоненты интервала. Мыбудем ссылаться на этот подход как M3 SP+. Напомним, как работаетM3 SP+.
Пусть есть состояние, описываемое многими компонентами = (1 , 2 , · · · , ). Каждая компонента является либо подмножеством некоторого множества ⊂ , либо элементом таксономии ∈ . Тогда в множестве 1 × 2 × · · · × выбираются самые специфичные частые элементы, то есть те, которые являются частыми,но для которых не существует более специфичных частых элементов.И затем только они используются для описания состояний. Далее используется алгоритм CloSpan. Тем не менее такой подход, даже сучётом шкалирования интервалов, не является эквивалентным нашему. В частности результаты данного подхода для нашей выборки неудовлетворяли эксперта.
Дело в том, что если рассматриваются только наиболее специфичные элементы, то это существенно увеличивает производительность подхода, но теряется выразительность языка.Более того, она теряется непредсказуемым образом, и эксперт не может быть уверен, почему он получил именно такую закономерность.130Поэтому в дальнейшем под M3 SP+ мы будем понимать его модификацию, в которой учитываются все частые элементы.Также для подходов CloSpan и M3 SP+ не определены понятияпроекций, которые позволяют нам существенно повысить время вычислений. Чтобы иметь возможность сравниваться, необходимо ввести понятия эквивалентые проекциям в CloSpan и M3 SP+, что впервые делается для подходов CloSpan и M3 SP+. Проекция минимальной длины не могут быть введена в эти подходы, так как все они порождают последовательности, начиная с самых коротких. С другойстороны, в отличии от нашего подхода, короткие последовательностиобрабатываются очень быстро подходами CloSpan и M3 SP+.Алфавитные же проекции могут быть лишь частично введены вэти подходы.
В частности, ограничение количества компонент, может быть сделано, если не добавлять признаки, соответствующееэтой компоненте, в эквивалентное множество при шкалировании.Запрещение одного корня таксономии входить в описание закономерностей, что можно сделать путём удаления признака корня из ,даёт существенно меньший эффект. Это связано с тем, что в нашемподходе запрещение корня таксономии также запрещает и все комбинации с этим корнем. Это существенно упрощает вычисления, таккак существенно уменьшается множество комбинаций с непустымсходством между состояниями. В подходе же CloSpan запрещаетсятолько один признак, что не сильно упрощает вычисления. В частности, подход CloSpan не смог ни для одного из наших случаевзавершить вычисления даже для порога по частоте 99%, что уже является неприемлимо высоким порогом.С такими проекциями подход M3 SP+ справляется существеннолучше.
В нём в качестве элемента рассматривается результат декартового произведения, что позволяет исключить все элементы такогопроизведения, включающие корень таксономии. Это позволяет добиться подхода эквивалентного нашему. Именно на этом случае мыи будем сравнить эти подходы. Тем не менее стоит отметить, чтонаш подход является более общим, так как позволяет вводить проек131ции, определяющие более сложные зависимости на признаках эквивалентного множества. В частности, в нашем подходе возможно ввести проекцию, которая ограничит максимальный размер интерваловв 4 компоненте.
Это соответствует достаточно сложной зависимостина эквивалентном представлении в виде множества. Эта зависимостьне может быть передана даже в M3 SP+ подходе.Основной проблемой при таком шкалировании для M3 SP+ является большой размер множества . Проблема усугубляется необходимостью вычисления декартового произведения, что существенноувеличивает размер множества. В частности, при использовании проекции Ц!ПИ2– самого сложного для вычисления случая для нашегоподхода, M3 SP+ смог завершить вычисления за сравнимое с нашимподходом время только для порога в 50%, не позволяющего применять этот подход на практике.
Если же исключить интервалы из рассмотрения и рассматривать только проекцию Ц!П2, то подход M3 SP+позволяет находить закономерности вплоть до порога в 5%, что является типичным порогом, используемым на практике. Здесь нужноотметить, что наш подход не зависит от установок порога по частотеи всегда выделяет все замкнутые закономерности.Таким образом, наш подход является более эффективным для рассмотренных типов проекции, а также позволяет большую гибкостьэксперту для уточнения вида закономерностей, которые должны лечьв модель.5.4ЗаключениеВ этой главе разработанные модели процессов со сложной структурой были применены для анализа реальных процессов. Былипроанализированы два процесса: процесс посещения веб-страницпользователями и процесс госпитализации пациентов. На примерепроцесса госпитализации была показана применимость и актуальность введённой модели для моделирование процессов с состояниями сложной структуры.132Большое преимущество предлагаемого подхода заключается втом, что позволяет эксперту в предметной области вводить необходимые ограничения в получаемую модель, что позволяет существенно сократить время построении модели и уменьшить шум, неизбежный при моделировании на реальных данных.
Было показано, чтоиспользование известных подходов к моделированию процессов наталкивается на серьезные трудности при моделировании процессовс состояниям сложной структуры, что, в частности, связано с недостаточной гибкостью ограничений, которые могут накладываться намодель.133ЗаключениеВ данной работе была предложена иерархическая модель и способ её построения для процессов с состояниями сложной структуры,частным случаем которых является процесс госпитализации пациентов. Предложенная модель основана на узорных структурах и состоит из двух этапов. На первом этапе создаётся большая иерархия элементарных моделей, из которых затем на втором этапе выбираютсялучшие, которые и формируют результирующую иерархическую модель. Для эффективного выполнения обоих этапов разработаны методы приближённых вычислений, доказавших свою эффективностьна практике. Так, проекции узорных структур применяются на первом этапе для повышения эффективности похода и для уменьшенияколичества элементарных моделей.
Для второго этапа введены оценки устойчивости, используемой для выбора лучших элементарныхмоделей.Предложенная математическая модель и вычислительные методылегли в основу программного комплекса, позволяющего исследоватьпроцессы с состояниями сложной структуры. С помощью этого комплекса был исследован процесс госпитализаций пациентов, а полученные результаты были признаны значимыми экспертами в предметной области.Таким образом, основные результаты всей работы могут бытьописаны следующим образом:∙ Разработан класс иерархических моделей процессов с состояниями сложной структуры, позволяющих исследовать такиепроцессы. Метод построения моделей предложенного классаоснован на математическом аппарате решеток замкнутых опи134саний (узорных структур), который является частью прикладной теории решёток.
Одной из ключевых составляющих предлагаемого подхода являются проекции, предоставляющие средства приближения описаний. Проекции – это метод упрощенияиерархической модели, который позволяет сохранять её важные особенности и существенно ускоряет вычисления. Проекции были введены в работе [40], но в диссертации класс возможных проекций был существенно расширен. Это позволиловводить проекции, которые имеют высокую практическую значимость при моделировании процессов с состояниями сложнойструктуры. В диссертации были введены и исследованы дваважных класса проекций, используемые при построении моделей процессов с состояниями сложной структуры. Первый изних – это проекции минимальной длины, которые позволяютисключать короткие закономерности из иерархической модели,что позволяет существенно сократить время расчёта модели безпотери её качества.
Второй введенный вид проекции – это проекция на алфавите состояний процессов, позволяющая гибкоуправлять включаемой в модель информацией, что позволяетбыстрее строить иерархическую модель, в которой остаютсятолько важные для эксперта элементарные модели – элементыиерархии.∙ Иерархическая модель процессов состоит из элементарных моделей, не все из которых важны. В данной работе экспериментально показывается возможность использование меры качества по устойчивости для выделения таких значимых элементарных моделей.