Главная » Просмотр файлов » Дуда Р., Харт П. - Распознование образов и анализ сцен

Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 15

Файл №1033979 Дуда Р., Харт П. - Распознование образов и анализ сцен (Дуда Р., Харт П. - Распознование образов и анализ сцен) 15 страницаДуда Р., Харт П. - Распознование образов и анализ сцен (1033979) страница 152017-12-22СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 15)

Часто применяемое упрощающее предположение о статистической независимости далеко не всегда оказывается справедливым. В случае когда применение функции из экспоненциального семейства и дает хорошее приближение неизвестной плотности, обычно бывает необходимо оценивать множество неизвестных параметров, а в распоряжении имеется только ограниченное число выборок. Как мы увидим, это может привести к тому, что оптимальные оценки дадут малоудовлетворительные результаты, и даже к тому, что «оптимальные» системы будут выполнять свои функции хуже, нежели «почти оптимальные». 8.8. Прабмми раааернасеи 79 Отсюда видно, что каждый из признаков влияет на уменьшение вероятности ошибки. Наилучшими в этом смысле являются те признаки, у которых разность средних значений велика йо сравнению со стандартными отклонениями. Вместе с тем ни один из признаков не бесполезен, если его средние значения для разнйх классов различны.

Поэтомудля дальнейшего уменьшения уровня ошибки надо, очевидно, ввести новые, независимые признаки. Хотя вклад каждого нового признака н не очень велик, однако если беспредельно увеличивать г, то вероятность ошибки можно сделать сколь угодио-малой. Естественно, если результаты, получаемые при использовании данного множества признаков, нас не устраивают, можно попытаться добавить новые признаки, особенно такие, которые способствуют разделению пар классов, с которыми чаще всего происходила путаница.

Хотя увеличение числа признаков удорожает и усложняет выделнтель признаков и классификатор, оно приемлемо, если есть уверенность в улучшении качества работы. При всем этом, если вероятностная структура задачи полностью известна, добавление новых признаков не увеличит байесовский риск и в худшем случае байесовскнй классификатор не примет их во внимание, а если эти признаки все же несут дополнительную информацию, то качество работы должно улучшиться. К сожалению, на практике часто наблюдается, что, вопреки ожиданиям, добавлейие новых признаков ухудшает, а не улучшает качество работы. Это явное противоречие составляет весьма серьезную проблему при разработке классификатора. Главный источник этого можно усмотреть в конечности числа исходных выборок.

В целом же данный вопрос требует сложного и тонкого анализа. Простейшие случаи не дают возможности экспериментального наблюдения указанного явления, тогда как случаи, близкие к реальным, оказываются сложными для анализа. С целью внести некоторую ясность, обсудим ряд вопросов, относящихся к проблемам размерности и объема выборки. В связи с тем что большинство результатов анализа будет дано без доказательств, заинтересованный читатель найдет соответствующие ссылки в библиографических и исторических замечаниях. 3.8,2. ОЦЕНКА КОВАРИАЦИОННОЙ МАТРИЦЫ Начнем иаш анализ с задачи оценки ковариациониой матрицы.

Для этого требуется оценить и'(1(+1)/2 параметров, из которых Н диагональных элементов и г((1( — 1)/2 независимых неднагональных элементов. Сначала мы видим, что оценка по максимуму правдопо- добия 60 Гл. Зч Ояеккв пареметрое и поучение с учителем представляетсобойсумму и — 1 независимых матриц размера дхс) единичного ранга, чем гарантируется, что она является вырожденной при л(г1. Так как для нахождения разделяющих функций необходимо получить величину, обратную л:, у нас уже есть алгебраические условия, связывающие по крайней мере 0+1 выборок. Неудивительно, что сглаживание случайных отклонений для получения вполне приемлемой оценки потребует в несколько раз большего числа выборок. Часто встает вопрос, как быть, если число имеющихся в распоряжении выборок недостаточно.

Одна из возможностей — уменьшить размерность, либо перестраивая выделитель признаков, либо выбирая подходящее подмножество из имеющихся признаков, либо некоторым образом комбинируя имеющиеся признаки'). Другая возможность — это предположить, что все с классов входят в одну ковариационную матрицу, т. е. объединить имеющиеся данные. Можно также попробовать найти лучшую оценку для Х. Если есть какая-нибудь возможность получить приемлемую априорную оценку Х„ то можно воспользоваться байесовской или псевдобайесовской оценкой вида ХХе+(1 — Х)2.

Если матрица Хо диагональная, то уменьшается вредное влияние «побочных» корреляций. С другой стороны, от случайных корреляций можно избавиться эвристически, взяв за основу ковариационную матрицу выборок. Например, можно положить все ковариации, величина коэффициента корреляции в которых не близка к единице, равными нулю, В предельном случае при таком подходе предполагается статистическая независимость, означающая, что все недиагональные элементы равны нулю, хотя это и может противоречить опытным данным. Даже при полной неуверенности в правильности такого рода предположений получаемые эвристические оценки часто обеспечивают лучший образ действий, нежели при оценке по максимуму правдоподобия. Здесь мы приходим к другому явному противоречию.

Можно быть почти уверенным, что классификатор, который строится в предположении независимости, не будет оптимальным. Понятно, что он будет работать лучше в случаях, когда признаки в самом деле независимы, но как улучшить его работу, когда это предположение неверно? Ответ на это связан с проблемой недостаточности данных, и пояснить ее сущность в какой-то мере можно, если рассмотреть аналогичную поставленной задачу подбора кривой по точкам.

На рис. 3.3 показана группа из пяти экспериментальных точек и некоторые кривые, предлагаемые для их аппроксимации. Экспериментальные точки были получены добавлением к исходной параболе независимого шума с нулевым средним значением. Следовательно, если считать, что последующие данные будут получаться таким же з) Мы еще вернемся и вопросаы уменьшения размерности в гл. 4 и б, 81 В.В. Лроблемы раэяирлосжи образом, то среди всех полиномов парабола должна обеспечить наилучшее приближение. Вместе с тем неплохое приближение к имеющимся данным обеспечивает и приведенная прямая.

Однако мы знаем, что парабола дает лучшее приближение, и возникает вопрос, достаточно ли исходных данных, чтобы можно было это предположить. Парабола, наилучшая для большого числа данных, может оказаться совершенно отличной от исходной, а за пределами приведенного интервала легко может одержать верх и прямая линия. Отлично аппроксимируются приведенные данные кривой десятого порядка. Тем не менее никто не будет ожидать, что полученное таким образом предполагаемое решение окажется в хорошем соответствии с вновь получаемыми данными.

И действительно, для получения хорошей аппроксимации посредством кривой десятого порядка Рис. 3.3. Подбор кривых по ввдаипотребуется намного больше выборок, чем для кривой второго порядка, хотя последняя и является частным случаем той. Вообще надежная интерполяция или экстраполяция не может быть достигнута, если она не опирается на избыточные данные. 3.8.3. ЕМКОСТЬ РАЭДЕЛЯЮЩЕЙ ПЛОСКОСТИ Наличие избыточных данных для классификации столь же важно, как и для оценки. В качестве сравнительно простого примера рассмотрим разбиение с(-мерного пространства признаков гиперплоскостью чч'х+све=О; Допустим, что имеется общее расположение п выборочных точек'), с каждой из которых можно сопоставить метку со, или со,.

Среди 2" возможных дихотомий (разделений на два класса) и точек в с(-мерном пространстве имеется некоторая доля Г(л, с(), так называемых линейных дихотомий. Это такая маркировка точек, при которой существует гнперплоскость, отделяющая точки, помеченные соь от точек, помеченных ат,. Можно показать, что эта ') Говорят, что точки в В-первом пространстве иаходятся в оби)гм расположении, если никакое из подмножеств, содержащих (к+1) точек, ие попадает в одно ( — 1)-мериое подпростраиство. 82 Гл. 3. Оценка нараметрае и абрчение е учителем доля определяется выражением 1, ((и, д) = 2 ч-ч ~к — 1) в=о п(е(+1, л > с(+1.

(48) График этой функции для разных значений й приведен на рис. 3 4. Заметим, что все дихотомии для 0+1 и менее точек линейны. Это значит, что гиперплоскость не ограничивается требованием пра- 1,0 0,8 ч 0,4 0,г 0,0 Рис. 3.4. Лоан линейных дихотомий н точек в й.мерном пространстве. 3.8.4. УРОВЕНЬ ОШИБКИ, УСРЕДНЕННЫЙ ПО 33ЯАЧАМ Приведенные примеры позволяют, таким образом, заключить, что при малом числе выборок вся проблема в том, что разрабатываемый классификатор не будет хорошо работать при получении новых данных. Мы можем, таким образом, полагать, чтв уровень ошибки явится функцией числа п выборок, убывающей до некоторого минимального значения при стремлении и к бескбнечности.

Характеристики

Тип файла
DJVU-файл
Размер
6,94 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее