Диссертация (1137259), страница 15
Текст из файла (страница 15)
Если же использовать структуру решётки формальных понятий в оценочном методе, то его время вычислений для всех понятий решётки сократится до несколькихпроцентов от времени прямого вычисления устойчивости во всей решётке.0.50.0●●●●●●●●●●●●●0 20 20 40 40 60 60 80 80100 100ПорогустойчивостиUpperBoundThresholdUpperBoundThreshold2.51.52.0Mush8124Mush8124Plnt1000Plnt1000Nurs12960Nurs12960Chss3196Chss3196Plnt34781Plnt34781●●●●●●1.0●●0.50.50●●●●●●●●●●●●●●●●●●●●●0.0●●Standard Deviation of Differenceотклонение0.0Стандартное0.51.01.5 точности2.02.5●Standard Deviation of Difference2.52.01.5●1.02.0Mean Difference1.01.5Точность оценки устойчивости0.0MeanDifferenceСредняяточностьоценки2.53.6.100 20 20 40 40 60 60 80 80100 100ПорогустойчивостиUpperBoundThresholdUpperBoundThresholdРисунок 3.9: Среднее и стандартное отклонения разницы междуоценками устойчивости сверху и снизу.89На как точно может быть оценена устойчивость предложенным методом? Рисунок 3.9 показывает зависимость точности оценки устойчивости в логарифмической шкале (ось ) от верхней границы устойчивости.
Если зафиксировать порог и затем выбрать всепонятия, чья верхняя оценка устойчивости превосходит , то затемможно посчитать среднюю величину и дисперсию разности междуоценками устойчивости сверху и снизу. Каждая линия на этом рисунке разделена на две в интервале [0, 10] по оси абсцисс. Верхняялиния соответствует оценочному методу, нижняя – комбинированному. Мы можем увидеть на этом графике, что комбинированныйметод, улучшает точность оценки только в начальном диапазоне. Насильно устойчивых понятиях он даже теоретически не может улучшить точность оценочного метода.
Но на малых устойчивостях оценочный метод может давать большую неопределённость в оценке,которая может быть устранена в комбинированном методе.Эти графики показывают два, в некоторой степени неожиданных,момента. Во-первых среднее и стандартное отклонение несильно изменяется от устойчивости понятия.
Можно было бы ожидать, чтоони будут уменьшаться, так как в нижнюю оценку устойчивости (3.6)входят сумма экспонент. При этом в каждую экспоненту входят разница в количестве объектов между понятием и его непосредственными потомками. Тогда при увеличении устойчивости, разница между понятием и потомками должна также увеличиваться. А значитвероятность нахождения у одного понятия нескольких потомков содинаковой разницей должна уменьшаться.
А так как разница стоит в экспоненте, то наименьшая из разница должна превалировать.Но как мы видим, на графиках это не так. Видимо это нужно объяснять тем, что среди понятий часто встречаются те, которые имеетнесколько потомков с одинаковой минимальной разницей в объектах.Так график среднего значения разницы может располагаться в диапазоне 1-2, что соответствует 2-4 потомкам с одинаковым значениемразницы для большинства понятий.90Второй неожиданный момент – это наличие наибольших среднего и дисперсии у наиболее структурированных данных. Так выборкиMush8124 и Nurs12960 содержат наименьшее количество понятийна один объект, то есть они лучше всего структурированы и содержатменьше шума, чем другие выборки. Но их средние и дисперсии наибольшие.
Видимо в этом непосредственные потомки с одинаковойразницей встречаются чаще.Оценка устойчивости и ранжирование0.43.6.20.3Mush8124Plnt1000Nurs12960Chss3196Plnt347810.20.1Количество потерьNumberof Lost Relationsприсравнениипонятий●●●●●●0.0●●●020406080●●100ПорогустойчивостиUpperBoundThresholdРисунок 3.10: Количество потерянных отношений между понятиямив зависимости от порога устойчивости.Для задач ранжирования, то есть упорядочивания понятий, обычно требуется найти какое понятие является более устойчивым, вто время как само значение устойчивости является не важным. Насколько хорошо предложенная оценка устойчивости может упорядочивать понятия? Рисунок 3.10 исследует это поведение.
По осиабсцисс отложен порог устойчивости, в то время как по оси ординатотложено относительное количество пар устойчивых понятий, которые не могут быть сравнены. Например, если для первого понятияоценка указывает, что его устойчивость находится в диапазоне [3; 5],91а для второго понятия – в диапазоне [4; 6], то порядок ранжирования этих понятия не может быть достоверно определен; если же длявторого понятия оценка устойчивости показывает диапазон [7; 9], товторое понятие в любом случае является более устойчивым, чем первое.Поведение показанное на графике 3.10 соответствует графику 3.9.Так при пороге устойчивости более, чем 10 поведение графика несильно зависит от порога устойчивости.
В то время как в диапазоне менее устойчивых понятий количество пар несравнимых понятий может быть существенным. Тем не менее их количество может быть существенно уменьшено использование комбинированногоподхода (линии графиков раздваиваются в менее устойчивом диапазоне; нижняя из линий соответствует комбинированному методу).Для большинства графиков для устойчивости более 10 теряется порядка 10% пар сравнимых понятий. Один график, соответствующийвыборке Mush8124, показывает потери порядка 20%, что всё ещёявляется приемлемым для упорядочивания формальных понятий.3.6.3Устойчивость и интервал оценкиРешение задачи отбора понятий по порогу устойчивости можетвыполняться по верхней или нижней оценке согласно (3.6). При выборе понятий по верхней грани, все устойчивые понятия по порогу будут найдены как устойчивые, в то время как некоторые неустойчивые могут быть ошибочно отмечены как устойчивые.
С другой стороны, при использовании нижней оценки для выбора понятий по порогу все отмеченные понятия будут устойчивыми по этому порогу, нонекоторые другие устойчивые могут быть пропущены. График 3.11показывает относительное количество ошибочных решений (ложноустойчивые в первом случае, и ложно неустойчивые во втором) полученных по оценке устойчивости. В частности, на этом графикевидно, что нижняя оценка намного ближе лежит к реальной устойчивости, чем оценка сверху. Так, например, при устойчивости более925 510 1015 1520 2025 2530 3035 3540 40ПорогThresholdустойчивостиThreshold0.60.4●Mush8124Mush8124Plnt1000Plnt1000Nurs12960Nurs12960Chss100Chss100Sflr1066Sflr10660.20.0●● ●●●●ВероятностьFalse Unstable Rateложно-неустойчивых0.00.20.40.6●False Unstable Rate●0.20.60.60.4●●●●●0.0False Stable Rate0.20.40.0ВероятностьFalse Stable Rateложно-устойчивых●●●● ●●●●●●●●●●●●5 510 1015 1520 2025 2530 3035 3540 40ПорогустойчивостиThresholdThresholdРисунок 3.11: Выбор устойчивых понятий путём установления порога по врехней или нижней грани оценки.10 нижняя оценка практически совпадает с устойчивостью.
Использование оценки сверху может находить до 20% ложно-устойчивыхпонятий даже для очень высоких порогов устойчивости. На низкихпорогов для некоторых выборок данных, оценка снизу может находить вплоть до 40% ложно-устойчивых понятий. Здесь стоит отметить, что оба графика на рисунке 3.11 строились с шагом в 1. Верхняягрань ошибки всегда является целым числом, в то время как нижняяможет быть не целой. Значит тут правильнее сказать, что нижняягрань оценки в большинстве случаев находится в том же промежутке между целыми числами что и точное значение устойчивости, итаким образом позволяет приближать точное значение устойчивостидостаточно точно.3.7ЗаключениеВ этой главе было проведено сравнение устойчивости – меры качества элементарных моделей, с другими мерами качества.
Было показано, что устойчивость выделяет те закономерности, или элементарные модели, которые также могут быть порождены по другому93набору данных, полученных по той же генеральной совокупности.Таким образом, использование устойчивости, как меры качества моделей оправдано, потому что это свойство устойчивости предполагает, что элементарные модели выделенные устойчивости по одномумножеству реализаций некоторого процесса будет также выделеноустойчивостью по другому множеству реализаций того же самогопроцесса.Также в этой главе мера устойчивости была сравнена с другимимерами качества закономерностей, которые являются элементарными моделям, на задаче обучения с учителем.
На этой задаче устойчивость была одной из лучших для решения такой задачи, но по сравнению с конкурентами она может быть также применена к моделямструктурных объектов, что является одной из важнейших характеристик меры устойчивости для нас,так как позволяет применять его кэлементарным моделям процессов с состояниями сложной структуры.Также в этой главе были введены и экспериментально апробированы введённые оценки устойчивости. Теоретически и экспериментально показано, что предложенные оценки имеют лучшие вычислительные свойства и дают лучшее приближение по сравнению с другими подходами к оценке устойчивости.
Также показано, что нижняяоценка устойчивости, как правило, располагается существенно ближе к реальному значению устойчивости, чем верхняя оценка. В тоже время верхняя оценка при использовании для фильтрации моделей в задаче обучения с учителем дает результаты очень похожие нарезультаты, получаемые с использованием исходного индекса устойчивости.94Глава 4Алгоритмы и комплексы программ,реализующие модели на основе решётокзамкнутых описаний4.1ВведениеВ данной главе будет предложена архитектура программного комплекса для реализаций различных моделей на основе решёток замкнутых описаний. В рамках этой архитектуры становиться возможным рассчитывать модели процессов состояниями сложной структуры состояний.
Предложенная архитектура позволяет использоватьпрактически любые классические алгоритмы по расчёту формальныхпонятий. Рассматриваемая архитектура узорных структур также может быть встроена в FCART [89] – программное обеспечение для интеллектуального анализа данных с использованием математическогоаппарата АФП, разрабатываемого на кафедре анализа данных и искусственного интеллекта НИУ ВШЭ.
FCART агрегирует в себе всеэтапы анализа данных от получение данных из сторонних источников до написание отчётов по проведённому анализу.Создание программного обеспечения для построения моделей наоснове узорных структур является важной задачей, т.к. на данныймомент она не может быть решена с помощью доступных программных средств. Существующие практические исследования узорныхструктур опираются на частные реализации, ориентированные наизучаемый тип узорных структур.