Диссертация (1137259), страница 12
Текст из файла (страница 12)
В конечном итоге, только множества пар и используютсядля исследования поведения устойчивости на разных выборкахпорождённым по одной генеральной совокупности.Здесь стоит отметить, что базовая и тестовые выборки должнысодержать одинаковое количество объектов, так как устойчивостьимеет тенденцию увеличиваться при увеличении размера выборки.В частности, если продублировать все объекты из некоторой выборки, то количество формальных понятий не изменится, а устойчивостькаждого понятия в логарифмической шкале увеличится вдвое.Идея исследование поведения устойчивости на двух независимыхвыборках, порождённых по одной генеральной совокупности, восходит к подходам, разработанным для исследования методов обученияс учителем.
Примером такого подхода является кросс-валидация. Более того, схема, в которой исходная выборка разбивается на две независимые, успешно применяется в известных подходах к выбору важных закономерностей [116].683.4.2Общее поведение устойчивостиМножества и могут быть отрисованы, путём соответствиякаждой паре ⟨, ⟩ из этих множеств точки на плоскости (, ). Наилучший график, который может быть получен, для любой меры качества элементарной модели – это график = , так как в этом случаеэта мера качества показывает одинаковое значение на независимыхвыборках.
Но на реальных данных это невозможно, так как любаямера качества зависит также и от конкретной выборки данных. Сдругой стороны, результирующий график любой меры качества должен быть близок к прямой, то есть должен быть способен по однойвыборке предсказывать своё значение на другой выборке. При отсутствии этого свойства мы не можем сказать, что какая-то выделеннаямодель, важнее другой, так как на другой выборке важность моделейсогласно такой мере качества может поменяться местами. Но качество одинаковых элементарных моделей в идеале не должно зависетьот выборки данных.Такие графики для выборок полученной из данных Mush для120 объектов в базовой и тестовой выборках и для 4000 объектовв этих выборках показан на рисунке 3.2 (в дальнейшем тип эксперимента будет задаваться как имя выборки, например, Mush, закоторым следует количество объектов в базовой и тестовой выборках, например, Mush120). На графиках изображающих множество (графики 3.2a и 3.2b) можно с трудом найти зависимость междуустойчивостью на базовой и тестовой выборках.
На этих графиках,есть уплотнения, которые соответствуют наиболее частым выпадениям пары устойчивостей, одно из которых находится рядом с (1; 1). Ноэти зависимости не являются закономерностями распределения точек между собой, но относятся к поведению устойчивости на такойвыборке. В частности, это можно увидеть на графиках 3.3a и 3.3b,на которых изображены диаграммы распределения устойчивости набазовой выборке по понятиям (распределение на тестовой выборкине имеет принципиальных отличий и, поэтому, не показывается). На69(a) Mush120(b) Mush4000(c) Mush120 лог. шкала(d) Mush4000 лог. шкалаРисунок 3.2: Устойчивость в тестовой выборке по отношению кустойчивости в базовой.этих графиках видно что устойчивость распределена неравномерно,чему и соответствуют уплотнения на графиках 3.2a и 3.2b.
В частности видно, что чем больше размер выборки данных тем большепонятий имеет устойчивость близкую к единице. Это согласуется сработой [53], в которой авторы подчёркивали, что для их выборкиданных большинство понятий имеет высокую устойчивость.Рассмотрим теперь графики 3.2c и 3.2d, на которых изображенораспределение пар устойчивостей между независимыми выборкамив логарифмическом масшатабе согласно (3.5). На этих графиках теперь мы можем увидеть размытую линию = . Более того, по этимграфикам также видно, что для большинства сильно устойчивых понятий на базовой выборке, скажем по порогу , большинство похожих понятий будут также устойчивы по меньшему порогу, скажем . Таким образом, мы можем заключить, что устойчивость должна70Гистограмма устойчивости020000Частота5000Частота150040000Гистограмма устойчивости0.0 0.2 0.4 0.6 0.8 1.00.2Устойчивость0.40.60.81.0Устойчивость(a) Mush120(b) Mush4000Рисунок 3.3: Гистограммы распределения устойчивости в решёткахразного размера.быть рассмотрена в логарифмическом масштабе, поэтому в дальнейшем будет использоваться только логарифмическая устойчивость.
Нокак именно порог завист от ?3.4.3Порог устойчивых понятийЗависимость между порогами и показаны на рисунке 3.4.Ось абсцисс соответствует порогу устойчивости в базовой выборке.Ось ординат, соответствует порогу устойчивости в тестовой. Каждаялиния задаётся исходной выборкой данных и количеством объектов вбазовой и тестовой выборках. Для данной выборки и данного размера такая линия задаёт 99% уровень порога устойчивости в тестовойвыборке, то есть показывает каким должен быть порог устойчивостив тестовой выборке для данного порога в базовой выборке, чтобыгарантировать, что 99% понятий похожих на устойчивые понятиябазовой выборки также являются устойчивыми.
Например для выборки Sflr120, если мы найдём все устойчивые понятия в базовойвыборке с порогом = 14, то 99% из этих понятий будут иметьпохожие устойчивые понятия (понятия с тем же содержанием) в тестовой выборке при пороге ≤ 10.71403020100Порог в тестовой выборке по уровню 99%Mush120Mush4000Plnt250Plnt1000Sflr120Sflr500Nurs250Nurs6480010203040Порог в базовой выборкеРисунок 3.4: Минимальный порог устойчивости в тестовой выборке,гарантирующий для данного порога в базовой выборке, что 99% понятий базовой выборки имеют похожими в тестовой выборке устойчивые понятия.На этом графике можно увидеть, что для всех данных, участвовавших в экспериментах, только начиная с ≤ 5, устойчивые понятия базовой выборки похожи на понятия тестовой выборки, устойчивые по порогу не равному нулю.
Это означает, что устойчивостьпонятия меньшая 5 на данной выборке не может быть использованадля оценки полезности понятия, так как похожее понятия в аналогичной выборке часто может отсутствовать, либо устойчивость похожего понятия может быть очень низка. С другой стороны разницадля всех выборок между порогами и не превышает 10 для всехисследованных данных на протяжении всего диапазона устойчивости.72θt = 11015MushPlntSflrNursθt = 5MushPlntSflrNurs5Устойчивость в базовой выборке20На этом графике также стоит отметить некоторые линии, изменяющиеся ступенчато.
Такие скачки происходят из-за того, что дляэтих выборок количество устойчивых понятий выше данного порогане большое и на каждом скачке происходит удаление одного понятияиз множества устойчивых.5010020050010005000Размер базовой и тестовой выборокРисунок 3.5: Порог устойчивости в базовой выборке, гарантирующий, что 99% понятий в тестовой выборке, похожих на устойчивыепонятия базовой выборки, также устойчивы в тестовой для двух порогов = 1 и = 5.Но как именно изменяется зависимость между и при изменение размера базовой и тестовой выборок? Данная зависимостьпоказана на рисунке 3.5. Ось абсцисс соответствует количеству объектов в обучающей и тестовой выборках.
Для каждого размера выборок ось ординат показывает какой порог нужно установить в базовойвыборке, чтобы в тестовой 99% похожих понятий были устойчивыпри определенном пороге. Чтобы не перегружать данный рисунок,линии показаны только для порога = 1 и = 5. Первый порогсоответствует ситуации, когда содержание устойчивого понятия базовой выборки присутствует в тестовой. Второй же порог требует,73чтобы при этом похожее понятие тестовой было также достаточноустойчивым.Здесь стоит отметить несколько моментов. Во-первых, для выборок небольшого размера разброс данной зависимости от данных кданным может сильно отличаться.
Но при этом, начиная примернос 500-1000 объектов в выборке, пороги устойчивости начинают вести себя похожим образом вне зависимости от данных. Так для того,чтобы содержание устойчивого понятия присутствовало в тестовойвыборке, необходимо установить порог устойчивости в 5-6. Еслиже мы хотим, чтобы понятие с этим содержанием было устойчивымпо порогу = 5, тогда порог устойчивости в базовой выборке должен быть равен 11.
Данные результаты предполагают, что устойчивость имеет асимптотическое поведение, которое, возможно, можетбыть доказано формально. На данный момент, насколько это нам известно, такого формального исследования не проводилось, и, такимобразом, такое исследование может стать интересным направлениембудущих работ.Если данное поведение устойчивости действительно общее, какна то указывают проведенные эксперименты, то оно позволяет находить устойчивые понятия в большой выборке данных посредствоманализа нескольких случайных подвыборок меньшего размера, скажем содержащие от 1000 объектов. Это позволит также существенноуменьшить сложность анализа формальных понятий, так как теперьуйдёт экспоненциальная зависимость в худшем случае от размераформального контекста.
Таким образом этот экспериментальные результат открывает возможность эффективного использования АФПна больших выборках данных, что является важным направлениембудущих работ.3.4.4Ранжирование понятий по устойчивостиЗначение меры качества может также использоваться, чтобы упорядочить закономерности. В частности, согласно этому порядку экс74перты могут анализировать закономерности и соотносить их с действительностью. Может ли устойчивость использоваться для такого ранжирования? Для исследования этого порядка нам нужно будетпосмотреть на разницу между похожими понятиями между базовойи тестовой выборками. Чтобы измерить эту разницу воспользуемсяиндексом упорядочивания массива.
Пусть есть некоторый массив ,состоящий из элементов ∈ . Пусть на также задан некоторыйлинейный порядок ≤. Тогда упорядоченность массива – это относительное количество пар элементов и , где < , таких что < , то есть относительное количество правильно упорядоченных пар:{(, ) | < и ≤ }(3.9)r() = 2 ·|| · (|| − 1)Упорядоченность массива равна 1, когда массив упорядочен по возрастанию; она равна 0 для упорядоченного по убыванию массива; и0,5 означает что массив неупорядочен.0.850.650.75ГИУ0.95Mush120Mush4000Plnt250Plnt1000Sflr120Sflr500Nurs250Nurs6480010203040Порог в базовой выборкеРисунок 3.6: Глобальный индекс упорядоченности устойчивости втестовой выборке согласно порядку понятий в базовой.Для того, чтобы исследовать возможность устойчивости к упорядочивания формальных понятий, понятия базовой выборки упорядочиваются согласно устойчивости. Затем, похожие понятия тестовой выборке берутся в соответствующем порядке.
Для каждого их75этих понятий тестовой выборке вычисляется устойчивость. Такимобразом получается массив устойчивостей понятий тестовой выборки, упорядоченный согласно устойчивости похожих понятий в базовой выборке. Для этого массива нас могут интересовать два видаиндексов упорядоченности: глобальный (ГИУ) и локальный (ЛИУ).Глобальный – это индекс упорядочивания всего массива согласноформуле (3.9). Для каждых из имеющихся данных, соответствующийГИУ показан на рисунке 3.6 в зависимости от порога устойчивостив базовой выборке .