Диссертация (1137259), страница 20
Текст из файла (страница 20)
В этомэксперименте использовались только первые 1000 записей, в силубольшой вычислительной сложности. И даже при обработке неполного набора данных решётка для неспроецированных узорных структур не была построена до конца, так как вычисления занимали оченьбольшое время. Это связано с большим размером результирующейузорной решётки, которая переставала помещаться в оперативнуюпамять, что сильно замедляет вычисления. Здесь мы можем заметить,что ПМД-проекции несильно отличаются друг от друга по временивычисления и по размеру решётки.Таблица 5.3 показывает содержания некоторых интересных понятий, выделенных с помощью индекса устойчивости в этом эксперименте для ПМД-проекции при ℓ = 2. Понятие #1 описываеттех пациентов, которые последовательно подвергались двум радиографиям, что, вероятно, свидетельствует о контроле за состояниембольного.
Среди всех записей госпитализаций пациентов 19% подвергались радиографии в двух последовательных госпитализациях.Это самое устойчивое понятие. Понятие 2 содержит 12 госпитализаций для прохождения химиотерапии, следующих за процедуройподготовки к курсу химиотерапии, понятие #3 содержит 8 последо124ПМД-проекцияНетℓ=2ℓ=3ℓ=4ℓ=5ℓ=65Время (сек.)> 1.4 * 1045103878372234353120Решётка> 2.8 * 106 554332 271166 189353 137912 100492Таблица 5.2: Время выполнения и размеры решёток для историй госпитализаций, описанных подмножествами.#СодержаниеУст. Объем1⟨{Радиография} * 2⟩119%7%2 ⟨{Хим.Подготовка} ; {Хим.Тер.} * 12⟩ 53⟨{Хим.Тер.} * 8⟩1628%Таблица 5.3: Интересные понятия для историй госпитализаций,описанных подмножествами. Хим.Тер.
означает химиотерапию,Хим.Подготовка – подготовку к химиотерапии.вательных госпитализаций для прохождения химиотерапии. Найденные таким образом закономерности являются достаточно простыми.В частности эксперт не выделил какие-либо новые для него закономерности из результатов этого эксперимента. Связано это преждевсего с тем, что в результатах присутствует много шума и те закономерности, которые эксперт мог заранее отметить как бесполезные.Для более тонкой подстройки получаемых закономерностей можетбыть использована алфавитная проекция. Тем не менее она не применима для такого простого случая.
Во второй части экспериментана этой выборке мы покажем, как более общее представление последовательностей помогает находить более интересные зависимости.Более того, в силу большей гибкости, также увеличивается и возможность уменьшения сложности модели, что позволяет существенно быстрее находить нужные закономерности.5.3.2Моделирование процессов госпитализации с учётом сложного описания состоянийВо второй части эксперимента будут рассматриваться последовательности с элементами произвольного типа, на которых ранее былаопределена решёточная операция сходства. Таким образом возможно125учесть всю информацию, доступную для анализа, такую как различные иерархии и количество повторов.
В таком случае для исследуемой выборки построение решётки узорных понятий занимает оченьмного времени и памяти. Тем не менее, перед экспертом, как правило, стоит конкретная проблема, которую он хочет решить. Чтобыизбежать получение неинтересных для эксперта закономерностей исущественно сократить требуемые ресурсы, к таким данным можноприменить алфавитные проекции. Примерами таких проекций можетстать нерассмотрение некоторых параметров одной госпитализации.Так при некоторых задачах, расположение больниц является маловажной операцией, в то время как для других эта информация является центральной.
Здесь также будут применяться ПМД-проекции,которые позволяют отсечь слишком короткие закономерности.Таблица 5.4 показывает времена построения решёток узорныхпонятий, количество понятий в этих решётках, а также количествоустойчивых понятий для различных типов проекций.
Так первыйстолбец соответствует проекции Ц!П2, для которой решётка былапостроена за 18 секунд, в этой решётке около 34700 понятий, среди которых устойчивых только 615. Здесь устойчивыми считаютсяпонятия с устойчивостью не меньшей 0.97, что соответствует логарифмической устойчивости 5 и более – экспериментально определённому порогу из главы 3.Имя проекций в этом разделе задаётся следующим образом: Р соответствует расположению больницы, Ц – цели госпитализации, П –множеству медицинских процедур, а И – интервалам вариации количества однотипных госпитализаций. Число в конце названия проекции задаёт минимально допустимую длину подпоследовательности, т. е.
параметр ℓ ПМД-проекции. Восклицательный знак в именизадаёт проекции, в которой запрещаются все госпитализации содержащие корневым элементом таксономии, за которой следует восклицательный знак. Например, Ц!П2 соответствует случаю, в которомгоспитализация описывается только причиной госпитализации (Ц) имедицинскими процедурами (П), при этом причина каждой госпита126Тип проекцияЦ!П2 Ц!П3 Ц!ПИ2 Ц!ПИ3 Р!Ц!2 Р!Ц!3Время работы ()18841715106Число понятий (в тысячах)34.7 8.67185693.24.22.2Число устойчивых( ≥ 0.97) понятий 615192111731113145Таблица 5.4: Результаты экспериментов для разных типов проекций.лизации должна быть не пустая (то есть запрещён корневой элементсоответствующей таксономии).
Здесь стоит отметить, что несмотряна более сложное представление данных, все эксперименты имеютменьшее время вычислений при анализе даже всех историй госпитализаций, чем при наивном подходе при анализе только 1000 историй.Это объясняется прежде всего использованием алфавитной проекции, которая упрощает данные в нужном эксперту направлении.Таблица 5.5 показывает содержания некоторых интересных понятий, полученных для определённых проекций, с соответствующимиподдержкой и рангом устойчивости (порядковым номером по согласно мере устойчивости).# Проекция СодержаниеУст. Объём1Ц!П2⟨[Рак, {}]; [Хим.Тер., {}]⟩14522Ц!П2⟨[Рак, {Апп.}]; [Хим.Подготовка, {}]; [Хим.Тер., {}]⟩42933Ц!П3⟨[Рак, {Апп.}]; [Хим.Подготовка, {}]; [Хим.Тер., {}]⟩22934 Ц!ПИ3 ⟨[Рак, {}]; [Хим.Подготовка, {}]; [Хим.Тер., {}] * [8, 24]⟩4193⟨[Регион А,Рак]; [Регион А,Хим.Подготовка]; · · ·5 Р!Ц!3529· · · [Конкретная больница в А,Хим.Тер.]⟩Таблица 5.5: Содержания интересных понятий из решёток дляразных проекций.
Уст. – сокращения для порядкового номера по индексу устойчивости. Хим.Тер. означает химиотеропию,Хим.Подготовка – подготовку к химиотерапии, Апп. – оперативное лечение аппендицита.Покажем какие задачи эксперт может решать путём задания определенных проекций. Так, первая задача определить существующиепоследовательные связи причин госпитализаций и соответствующих процедур. Здесь эксперт не интересуется территориальным расположением больницы, а также, сначала ему не интересно и количество повторений химиотерапии. Более того, если он хочет исследовать последовательные связи причин госпитализаций, то любой127узор с причиной “любая” является не интересным для эксперта. Таким образом, рассматриваемая проекция будет носить имя Ц!П, вкоторой мы интересуемся целью госпитализации, которая не можетбыть “любой” (Ц!), а также соответствующим набором процедур (П).Узор #1 из Таблицы 5.5 отмечает типичную для раковых больных закономерность: если у пациента обнаружен рак, то он подвергаетсяхимиотерапии.
Это самое устойчивое понятие, с существенной поддержкой. Узоры #2 и #3 описывают одно и тоже явление, в которомутверждается, что рак у пациентов может быть найден во время операции аппендицита, что подтверждается медицинской литературой, споследующим лечением химиотерапией. Отметим, что узоры #2 и #3отличаются по устойчивости, потому что узор #2 был получен приПМД-проекции, допускающей узоры длины 2, в то время как узор #3был получен при ПМД-проекции, допускающей только узоры длины3 и более.Далее, если эксперт интересуется количеством повторений химиотерапии, то он может включить информацию о числе повторений в алфавит последовательностей, что образует новую проекциюЦ!ПИ.
Так, узор #4 показывает, что в значительном числе случаевпациенты имеют от 8 до 24 последовательных госпитализаций длякурса химиотерапии. Тут стоит отметить, что время, затраченное навычисление решётки узорных понятий для проекции Ц!ПИ3, существенно превышает время построения решётки для проекции Ц!П3.Таким образом, правильно подобранная проекция не только упрощает экспертный анализ узоров, но и существенно влияет на времяпостроения решётки.Другая возможная задача эксперта – найти как пациенты предпочитают проходить своё лечение. Так, проекция Р!Ц! оставляетв каждом узоре только информацию о территориальном расположении больницы и соответствующей причине госпитализации, где обаполя не могут быть пустыми.
Узор #5 – один из узоров, полученных в такой проекции. Этот узор отмечает тот факт, что пациенты покаким-то причинам предпочитают проходить химиотерапию в кон128кретной больнице региона А, независимо от того, в какой больницеэтого региона у них обнаружили рак. Возможно, что это единственная больница региона, которая может проводить химиотерапию, либокачество услуг в данной больнице существенно выше, чем у конкурентов.5.3.3Использование других подходов для моделирования процесса госпитализации пациентовКак отмечалось ранее, существует несколько классов моделей,описывающих процессы. Напомним, что графические модели работают с простыми состояниями и, таким образом, не могут быть применены в нашем случае.
Модели, задаваемые закономерностями, работают с алфавитом вида (, ∩), где – некоторое множество. Такимобразом, такие подходы также не могут напрямую работать с процессами с состояниями сложной структуры. Тем не менее, наши данныемогут быть преобразованы в последовательности, с которыми работают такие методы построения моделей. Для такого преобразованиенеобходимо отшкалировать каждой состояние в множество двоичныхпризнаков.