2010 Лекции МОТП. Записки (2010 Лекции МОТП. Записки.pdf), страница 9

PDF-файл 2010 Лекции МОТП. Записки (2010 Лекции МОТП. Записки.pdf), страница 9 (ММО) Методы машинного обучения (63118): Лекции - 10 семестр (2 семестр магистратуры)2010 Лекции МОТП. Записки (2010 Лекции МОТП. Записки.pdf) - PDF, страница 9 (63118) - СтудИзба2020-08-25СтудИзба

Описание файла

PDF-файл из архива "2010 Лекции МОТП. Записки.pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

Данные «свойства»существенно зависят от длины обучающей выборки и самого алгоритма ихпоиска. В то же время, кратчайшие и минимальные логические описанияклассов образуют уже неизбыточные подмножества, выражающие какосновные свойства данных множеств, так и свойства самих классов. Поэтомуt52smвычисление D j (S ) и D j (S ) может рассматриваться как один из подходов кпроблеме сортировки логических закономерностей классов. Входящие вD sj (S ) и D mj (S ) предикаты могут рассматриваться как наиболее компактныепредставления о классах, включающие как наиболее представительныезнания (предикаты, покрывающие большое число эталонов), так иуникальные или редкие (предикаты, покрывающие малое число эталонов илиотдельные из них).Определение. Логической сложностью (компактностью) классовназываются величины:1. ψ1(Kj)=<число конъюнкций вD sj (S ) >;2.

ψ2(Kj)=<число переменных вD mj (S ) >.lВеличина Φ( I 0 )=∑ψ ( K ) ,i =1iгде ψ - некоторый критерий логическойсложности класса, называется логической сложностью задачи.Естественно ожидать, что если некоторый класс является компактным,простым множеством объектов, хорошо логически отделимым от другихклассов, то он имеет малое число переменных в минимальном логическомописании класса и/или малое число конъюнкций в кратчайшем.7.

Минимизация признакового пространства в задачах распознаванияСтандартная постановка задачи распознавания предполагает, чтоначальная информация о классах (обучающая информация) задаетсявыборкой векторных признаковых описаний объектов, представляющих всеклассы. Во многих случаях система признаков формируется "стихийно". В еесостав включаются все показатели, влияющие на классификацию (хотя бычисто гипотетически), и которые можно вычислить или измерить.Независимо от числа имеющихся признаков, исходная система признаков,как правило, избыточна и включает признаки, не влияющие наклассификацию или дублирующие друг друга.

В некоторых практическихзадачах распознавания затраты на вычисление части признаков могут бытьзначительными и конкурировать со стоимостью потерь при распознавании.Решение задач обучения при меньшем числе признаков также является болееточным, а полученные решения более устойчивыми. Таким образом, решениезадач минимизации признаковых пространств является важным во многихотношениях.Рассмотрим задачу минимизации признакового пространства вследующей постановке. Пусть имеется модель Μ алгоритмов распознавания,признаковое пространство X1, X2,…,XN и критерий качества f ( A) алгоритма A.Требуется найти такое признаковое подпространство X i , X i ,..., X i , с1минимальным n , для которого2nf ( A) ≥ f 0 , где f 0 - некоторый минимально53допустимый порог точности алгоритма распознавания A, построенного поданным обучения для данного подпространства.В силу своего комбинаторного характера, методы переборазначительного числа различных признаковых подпространств практическинереализуемы, поэтому обычно используются процедуры последовательноговыбора из системы k признаков подсистемы из k-1 признака.

Здесьиспользуются различные общие подходы: последовательный отброснаименее информативных признаков, с использованием кластеризациипризнаков, и другие. Специальные подходы отбора и преобразованияпризнаков имеются в статистической теории распознавания. Многие моделираспознавания включают и свои специфические способы оценки и отборапризнаков.В настоящем разделе рассматривается метод минимизациипризнакового пространства, ориентированный на модели частичнойпрецедентности [1,2] и основанный на кластеризации признаков с учетом ихинформативности и взаимосвязи.7.1. Информативность признаков и логические корреляцииЗадача минимизации признакового пространства рассматривалась длямоделей распознавания, основанных на голосовании по системамлогических закономерностей [1-3].Пусть P - некоторое множество предикатов, найденное по данным обучения.Определение.

Величина wei (i ) = N (i) / N называется мерой информативностипризнака Xi , если N(i) - число предикатов множества P, содержащих признакXi .Пусть N(i,j) -число одновременных вхождений признаков Xi , Xj в однуN (i, j )закономерность по множеству P. Величину Lcorr (i, j ) = 1 −min( N (i ), N ( j ))назовем логической корреляцией признаков Xi и Xj . Данная величина равнанулю, когда во всех закономерностях, куда входит признак Xi, присутствуетXj (и наоборот), т.е. признаки "дополняют друг друга". Корреляция равнаединице, если ни в одну закономерность с признаком Xi не входит Xj.Отметим, что при выборе критериев φ (Pt) согласно [2,3] равным признакамбудет соответствовать единичная корреляция.

В случаях равных илипропорциональных признаков (столбцов таблицы обучения), в силу свойствлогических закономерностей Nij=0 (что непосредственно следует изалгоритма их поиска) и, следовательно, rij=1.Если min(Ni ,Nj)=0, полагаем rij=0 (данный случай возникает ,например, если xi(S)≡ const).7.2. Кластеризация признаков и выбор подсистем признаковРассмотрим задачу нахождения таких кластеров признаков, длякоторых входящие в них признаки обладают близкими корреляционными54свойствами.

В качестве меры корреляционной близости признаковрассмотрим более "тонкий" критерий чем 1 − Lcorr (i, j ) , а именно, основанныйkна полуметрике r (i, j ) =∑ Lcorr (i, l ) − Lcorr ( j, l ) + k × (1 − Lcorr (i, j )) .l =1,l ≠ i , jПервое слагаемое показывает насколько близки признаки поотношению к другим признакам, а второе – насколько они «схожи» междусобой. Множитель k добавлен для того, чтобы слагаемые были соразмерны ивносили примерно одинаковый вклад в определение близости междупризнаками.В качестве алгоритма кластеризации для заданной полуметрики r (i, j ) ификсированного числа классов использовалась иерархическая группировка[4], в которой расстояние между кластерами определялось согласно функцииr ( Kp, Kq ) = max(r (i, j )) .i∈ K p , j ∈ K qПосле нахождения n кластеров в сокращенную подсистему признаковвключаются наиболее информативные признаки (по одному из каждогокластера).Таким образом задача минимизации признакового пространстварешается следующим образом.

Предполагается, что для исходногопризнакового пространства выполнено f ( A) ≥ f 0 . Вычисляется матрицазначений r (i, j ) .Пусть на некотором шаге k=0,1,2,… получено с помощью кластеризациипризнаковое подпространство из N-k признаков XN −k= { X i1 , X i2 ,..., X i N −k } ,и AN-k - построенный в данном подпространстве алгоритм распознавания. Вкачестве решения задачи минимизации признакового пространстваN −k= { X i1 , X i2 ,..., X i N −k } , соответствующее максимальномупринимается Xk при ограниченииf ( AN − k ) ≥ f 0 .7.3.

ПримерыНа Рис.1 приведены графики изменения точности распознавания в моделираспознавания [3] при двух подходах к минимизации признаковогопространства на примере задачи распознавания состояния ионосферы [5].Исходное признаковое пространство включало 34 признака, задачараспознавания решалась относительно двух классов, обучающая выборкаимела длину 181 объектов, контрольная - 170.

Черная линия соответствуетпоследовательному отсеву менее информативных признаков, серая минимизации признакового пространства согласно предложенному внастоящей работе алгоритму. Видно, что серая линия лежит, как правило,ниже черной. "Волнистость" графиков f ( A) является естественнымследствием набора факторов (не идеальность процедур вычисления55предикатов Pt(S), малая длина выборок, "частичная несогласованность"выборок, когда информативность признака на обучающей таблице иконтрольной имеет некоторое различие). Из рисунка следуют естественныекачественные выводы о данной задаче распознавания. Удаление первой третималоинформативных признаков мало влияет на точность распознавания и независит от используемого метода их сокращения. Оставшиеся 20 признаковвполне компенсируют отсутствие остальных 14. При удаление последующих10 потери при кластеризационной минимизации растут меньше, чем причастотной.24Процент ошибок2220Частотный весКластеризация18161434 29 25 23 20 17 15 13 12 11 1098765432Кол-во признаковПроцент ошибокРис.1 Минимизация признакового пространства на примере задачираспознавания состояния ионосферыДругой пример практической иллюстрации выполнен для задачиоценки тяжести заболевания пневмонией с параметрами N=41, l=4 (рис.2).706050403020100Частотный весКластеризация41 35 30 25 22 20 18 16 14 12 10 8654321Кол-во признаковРис.2.

Минимизация признакового пространства на примере задачи оценкитяжести заболевания пневмониейПри всей условности результатов, обусловленных малыми выборкамиобучения (116 объектов) и контроля (57 объектов) выбор малого числа56информативных признаковпредпочтительнее.сиспользованиемкластеризацииявноЛитература.1.

Журавлев Ю.И. Об алгебраическом подходе для решения задачраспознавания или классификации, Проблемы кибернетики, Наука, Москва,1978, выпуск 33, стр.5-68.2. Ryazanov V.V. Recognition Algorithms Based on Local Optimality Criteria //Pattern Recognition and Image Analysis. 1994. Vol.4. no.2. P.98-109.3. Богомолов В.П., Виноградов А.П., Ворончихин В.А., Журавлев Ю.И.,Катериночкина Н.Н., Ларин С.Б., Рязанов В.В., Сенько О.В. Программнаясистема ЛОРЕГ - алгоритмы распознавания, основанные на голосовании помножествам логических закономерностей. Москва, ВЦ РАН, 1998, 63 с.4.

Р.Дуда, П.Харт, Распознавание образов и анализ сцен. Издательство"Мир", Москва, 1976, 511 с.5. Sigillito, V. G., Wing, S. P., Hutton, L. V., \& Baker, K. B. (1989).Classification of radar returns from the ionosphere using neural networks. JohnsHopkins APL Technical Digest, 10, 262-266.1.2.5. Решающие деревья.Методы распознавания, основанные на построении решающих деревьев, относятся к типулогических методов.В данном классе алгоритмов распознавание некоторого объекта осуществляется какпрохождение по бинарному дереву из корня в некоторую висячую вершину. В каждойвершине вычисляется определенная логическая функция.

В зависимости от полученногозначения функции происходит переход далее по дереву в левую или правую вершинуследующего уровня. Каждая висячая вершина связана с одним из классов, в который иотносится распознаваемый объект, если путь по дереву заканчивается в данной вершине.Бинарным корневым деревом (БД) называется дерево, имеющее следующие свойства:а) каждая вершина (кроме корневой ) имеет одну входящую дугу;б) каждая вершина имеет имеет либо две, либо ни одной выходящей дуги.Вершины, имеющие две выходящие дуги, называются внутренними, а остальные –терминальными или листьями.Пусть задано N предикатов Ρ = { y1 = P1 ( S ), y2 = P2 ( S ),..., y N = PN ( S )} , определенных намножестве допустимых признаковых описаний {S}, именуемые признаковымипредикатами. Каждый предикат отвечает на вопрос, выполняется ли некоторое свойство57на объекте S или нет.

Примерами признаковых предикатов могут быть1, если (1.5 ≤ x2 ( S ) ≤ 3.2) & ( x5 ( S ) = 0)P1 ( S ) = в противном случае,0,1, если 0.5 x2 ( S ) + 1.2 x7 ( S ) < 1P2 ( S ) = в противном случае.0,Каждой строке Si = (ai1 , ai 2 ,...ain ) таблицы обучения Tnml = ( aij ) m×n поставим в соответствиебинарную строку значений предикатов на описании Si ⇒ ( yi1 , yi 2 ,..., yiN ), yij = Pj ( Si ) . В0результате, таблице Tnml = ( aij ) m×n будет соответствовать бинарная таблица TNml = ( yij ) m×Nбинарных «вторичных описаний» объектов обучения.Бинарное дерево называется решающим, если выполнены следующие условия:1. каждая внутренняя вершина помечена признаковым предикатом из Ρ ;2.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
435
Средний доход
с одного платного файла
Обучение Подробнее