Автореферат (1137434), страница 3

Файл №1137434 Автореферат (Модели, методы и комплексы программ построения зависимостей, основанные на решетках замкнутых множеств) 3 страницаАвтореферат (1137434) страница 32019-05-202019-05-20СтудИзба

Модели, методы и комплексы программ построения зависимостей, основанные на решетках замкнутых множеств

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

В работе [В.Финн 1991] эти объекты называются неопределенными примерами, они могут12быть заданы контекстом K := ( , , ), соответствующий оператор Галуаобозначается через (·) .Гипотезы могут быть использованы для классификации неопределенныхпримеров: если содержание := { ∈ | (, ) ∈ }объекта ∈ содержит положительную и ни одной отрицательной гипотезы, то классифицируется положительно. Отрицательные классификацииопределяются аналогично. Если содержит гипотезы обоих знаков, то классификация противоречива. Если вообще не содержит гипотез, то классификация не определена. В этом случае можно применять методы другого типа,например, основанные на статистических подходах.В работе [С.

Кузнецов и Б. Гантер, 2000] отмечалось, что для классификации можно ограничиться только минимальными (по вложению ⊆) гипотезами, положительными и отрицательными, поскольку объектное содержаниесодержит положительную (отрицательную) гипотезу тогда и только тогда, когда оно содержит некоторую минимальную гипотезу.В разделах 4.1-4.2 приводится теоретико-решеточная интерпретация гипотез и показывается эквивалентность задач поиска минимальных гипотез идуализации монотонной булевой функции на решетке. Также, показываетсятрудноразрешимость задачи поиска минимальных гипотез.Задача 2. Перечисление минимальных гипотез (MHE)ВХОД: Положительные и отрицательные контексты K+=(+ , , ℐ+ ), K− = (− , , ℐ− )ВЫХОД: Все минимальные гипотезы контекста K± .Теорема 5.

Минимальные гипотезы не могут быть перечислены за полиномиальное от выхода время, если ̸= В разделе 4.3 описывается метод распределенного обучения гипотезам.Часто бывает ситуация, когда ДСМ-гипотез слишком много (даже минимальных), что затрудняет обучение гипотезам и последующую классификацию. Пусть есть несколько обучающих контекстов с одинаковым множествомпризнаков: K1± , . . .

, K± . В качестве гипотез будем использовать только те гипотезы, которые являются гипотезами в каждом из контекстов. Формально:SharedHypotheses(K± 1 , K± 2 , . . . , K± )123412C ← AllIntents(GetClosure(·), K+ , K+ , . . . , K+ )12H ← { | ∈ C , * ∀ ∈ K− ∪ K− ∪ . . .

∪ K− }Minimize(H )return HГде – оператор замыкания общих содержаний, а – любой алгоритм АФП поиска всех замкнутых множеств, использующий оператор замыканий (например Next Closure)Условиями применения данной модели обучения могут служить следующие ситуации:131. Несколько исследовательских групп проводят один и тот же эксперимент2. Несколько наборов данных с одинаковым набором признаков описываютодну и ту же задачу, но объекты отличаются по своей природе.3. Общих содержаний намного меньше, чем содержаний в каждом из положительных контекстов.Ниже приводятся результаты экспериментов по классификации токсичности химических соединений ДСМ-методом с использованием общих гипотез: .*304,62012,71014,6516,0.

.* . #.* #.10,0 65,9 54,61324,012,1 35,6 45,852134,010,5 18,3 45,4104270,010,4 15,1 45,8151389,75∙ .* – процент ошибочной классификации при использовании общихгипотез∙ . – процент ошибочной классификации при использовании классических гипотез∙ .* – процент неклассифицируемых объктов при использовании общих гипотез∙ . - процент неклассифицируемых объктов при использовании классических гипотез∙ #.* – количество минимальных общих гипотез∙ . – среднее количество минимальных классических гипотез по 4базам данных.Таблица 0.2.

Результаты классификации токсичности молекул.В разделе 4.4 даются основные определения устойчивости формальныхпонятий и гипотез.Определение 4. Пусть K = (, , ) – формальный контекст и (, )– формальное понятие контекста K. Индекс (интенсиональной) устойчивости (, ), или (), определяется следующим образом:| ⊆ | ′ = | (, ) =2||Индекс экстенсиональной устойчивости определяется двойственным об′′=|разом: (, ) = () = |⊆|. Обычно, когда это не приводит к2||неправильному пониманию, индексы и опускаются.В разделе 4.5 исследуются задачи приближенного подсчета числа замкнутых и незамкнутых множеств.

В частности рассматривается задача:14Задача 3. Количество незамкнутых множеств (#NC)ВХОД: A Формальный контекст K = (, , )ВЫХОД: Количество множеств ⊂ таких, что ′′ ̸= Доказывается, что эта задача не может быть решена за полиномиальное время, если ̸= . Простым следствием этого результата являетсяфакт, что, если ̸= , то не существует полиномиального алгоритма дляприближенного вычисления устойчивости формального понятия с полиномиально ограниченной относительной ошибкой.В разделе 4.6 описывается вероятностная модель устойчивости формального понятия.Определим модель вероятностной устойчивости формального понятия,следующим образом:Определение∑︀5(Вероятностный индекс устойчивости).

()==1 (), где () – независимые и одинаково распределенные случайныевеличины, определяемые как:{︂1, если ′′ = ; (замыкание случайного подмножества совпало с ) () =0, если ′′ ̸= ; (замыкание случайного подмножества не совпало с )когда ⊆ выбрано случайно и равномерноВероятностный индекс устойчивости можно вычислять методом МонтеКарло.Утверждение 1. Метод Монте-Карло аппроксимирует () с вероятностью не меньше 1 − и абсолютной погрешностью при условии, что12 > 2 ln2В разделе 4.7 приводится анализ вычисления вероятностной устойчивости. Топ устойчивых понятий находится, используюя следующий несложныйалгоритм:TopStableConcepts(K, 0 )1 answer ← ∅2 for каждого понятия = (, ′ ) контекста K3do if approxStability() > 4then answer ← answer ∪{(, ′ )}5 return answerВ разделе 4.8 приводятся результаты экспериментов с данными по токсичности химических соединений, используя устойчивые гипотезы.

В данномтестировании для классификации выбирались только устойчивые гипотезы.Гипотеза считалась устойчивой, если ее индекс вероятностной устойчивости50 в соответствующем контексте (положительном, для положительной гипотезы и отрицательном, для отрицательной гипотезы) больше заданного порога0.65.15 .*3031,02010,91012,5512,8. .* . #.* #.10,0 49.7 54,69,824,012,1 44.6 45,879,7134,010,5 34.5 45,4 265,75270,010,4 31.9 45,8393,5389,75∙ .* – процент ошибочной классификации при использовании устойчивых гипотез с > 0, 65∙ . – процент ошибочной классификации при использовании классических гипотез∙ .* - процент неклассифицируемых объектов при использованииустойчивых гипотез с > 0, 65∙ . – процент неклассифицируемых объектов при использовании классических гипотез∙ #.* – среднее количество минимальных устойчивых гипотез по 4базам данных∙ #.

– среднее количество минимальных классических гипотез по 4базам данныхТаблица 0.3. Результаты классификации токсичности молекул.В пятой главе приводится описание системы Cordiet-FCA и вошедшего внее комплекса программ, реализующего алгоритмы, описанные в диссертации.Система Cordiet-FCA разрабатывается отделением прикладной математики иинформатики НИУ ВШЭ (ОПМИ).

На основе предложенных моделей и алгоритмов, описанных в разделах 2.8, 3.4, 4.3 и 4.6, был разработан комплекспрограмм вошедший в систему Cordiet-FCA.В разделе 5.2 описывается структура программы построения и тестирования базисов импликаций:Алгоритмы построения и тестирования базисов импликаций были реализованы на языке C++ (около 1000 строк кода).Эти реализации вошли в комплекс программ, встроенный в программную систему Cordiet-FCA и могут быть использованы для построения приближенного базиса импликаций.Структура программы построения и тестирования базисов импликацийимеет следующий вид:1.

В файлах mset.h и mset.cpp (приложение 1.1) реализованы структуры ифункции для работы с множествами, представленными списками элементов.162. В файлах implications.h и implications.cpp (приложение 1.2) реализованы структуры и функции для работы с импликациями. Функцияlin_closure(const std::vector<Implication>& implications, const mset& X)вычисляет замыкание множества X в базисе implications, используя алгоритм linclosure [Д. Мейер 1987]3.

В файлах context.h и context.cpp (приложение 1.3) реализован классContext для работы с формальными разреженными контекстами.4. В файлах min_transversals.h и min_transversal.cpp (приложение 1.4) реализован алгоритм поиска минимальных трансверсалей гиперграфа изработы [Д. Каввадиас и др. 2005], который используется для поискаминимальных генераторов и собственных посылок.5. В файлах angluin.h и angluin.cpp (приложение 1.5) реализован алгоритм поиска приближенного базиса импликаций.Функцияstd::vector<Implication>get_approximate_base(constsparse_context::Context& K, int no_steps) возвращает приближенный базис импликация контекста K, после no_steps шагов.6. В файлах proper_premise.h и proper_premise.cpp (приложение 1.6) реализован алгоритм поиска собственных посылок из работы [Д.

Боркманни др. 2011].В разделе 5.3 описывается программная реализация алгоритма вычисления оператора замыкания общих содержанийБыли реализованы две версии алгоритма вычисления оператора замыкания общих содержаний: для случая, когда контекст задан бинарной матрицейи случая, когда контекст задан списками признаков.Оба алгоритма были реализованы на языке C++ (около 170 строк) всреде MS Visual Studio 2010 с использованием стандартной библиотеки STL.Реализация вошла в комплекс программ, встроенный в программную систему Cordiet-FCA и может быть использована для анализа сходства большихдинамических массивов данных.Структура программы вычисления оператора замыканий общих содержаний имеет следующий вид:1. В файле shared_closure.cpp (приложение 2.1) функция mset closure(conststd::vector<sparse_context::Context>& K, const mset& X) вычисляет оператор замыкания общих содержаний для случая когда контексты заданысписками признаков.2.

В файлах shared_closure.h и shared_closure.cpp (приложение 2.1) реализована структура данных PQ (специальная приоритетная очередьс поддержкой дополнительный операций), используемая алгоритмом_2.В разделе 5.4 описывается программная реализация распределенногообучения гипотезам.17Алгоритм распределенного обучения гипотезам был реализован на языке C++ (около 300 строк) в среде MS Visual Studio 2010 с использованиемстандартной библиотеки STL.Реализация вошла в комплекс программ, встроенный в программнуюсистему Cordiet-FCA.Структура программы распределенного обучения гипотезам имеет следующий вид:1. В файле JSM_test.cpp (приложение 2.1) функция vector<mset>find_shared_hypotheses(constvector<Context>&pK,constvector<Context>& nK) находит все общие гипотезы наборов положительных и отрицательных контекстов pK и nK, соответственно.2.

Характеристики

Тип файла

PDF-файл

Размер

366,47 Kb

Материал

Модели, методы и комплексы программ построения зависимостей, основанные на решетках замкнутых множеств

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-metody-i-kompleksy-programm-postroenija-zavisimostej-osnovannye-na-reshetkah-zamknutyh-mnozhestv.rar

Модели, методы и комплексы программ построения зависимостей, основанные на решетках замкнутых множеств

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.