Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 17
Текст из файла (страница 17)
Чтобы быть вполне уверенным в том, что истинный уровень ошибок менее 2зв, классификатор не должен ошнбиться более чем на 250 пробных выборках. Потребность в данных для построения классификатора н добавочных данных для его оценки представляет дилемму для проектнровщнка. Если большую часть своих данных он оставит для проектнровання, то у него не будет уверенности в результатах испытаний. Если большую часть данных он оставит для испытаний, то не получит хорошего устройства. Хотя вопрос о том, как лучше разделять множество выборок на конструктивное н контрольное подмножества, в какой-то мере исследовался н много раз обсуждался, однако окончательного ответа на него все еще нет.
таниях классификатора нередко использовались одни и те же данные. Такой неверный подход обычно назывался «испытанием по тренировочным даниымю родственная, хотя и менее очевидная задача соответствует случаю, когда классификатор подвергается многим последовательным усовершенствованиям, проводимым на основании повторных испытаний при одних и тех же зксперименталь. ных данных. Такого вида «испытание по тренировочным даннымь часто кажется привлекательным до получения новых пробных выборок, «) Чтобы зто предположение оказалось верным, состояния природы должны выбираться случайно. В результате в задачах со многими классами некоторые классы могут вообще не быть представлены. Чтобы обойти зту невриятностгч язао вызванную малым числом выборок, обычно принято делать число пробных выборок для каждого класса хотя бы грубо соответствующим априорным вероятностям.
При атом оценка уровня ошибок уточняется, однако точный анализ усложняегся. 88 Гл. 3. Оценка параметрое и обучение с учителем В действительности, чтобы построить классификатор н испытать его, имеется много способов и помимо разделения данных. Например, можно многократно повторять процесс, каждый раз используя различное разделение и усредняя оцеяки получаемых уровней ошибок.
Если не важны затраты на вычисления, то имеются веские аргуменгы в пользу того, чтобы проделать это и раз, используя каждый раз и — 1 выборок для проектирования и только одну вы- 47 Юб й р Л Ц7 Дг йУ ДУ П~ аб а7 Д8 ПИ 7,а Р Рис. 3.6. доверительные интервалы лли оценок по уровню ошибки (Хвйлимвн, 1962). борку для испытания. Основное преимущество такого подхода состоит в том, что при каждом проектировании используютсяфактически все выборки, что дает возможность получить хорошее устройство, а с другой стороны, в испытаниях также используются все выборки.
Эта процедура, которую можно назвать «поштучным исключением», особо привлекательна, если число имеющихся выборок слишком мало. Если же число выборок очень велико, то, вероятно, достаточно разделить данные отдельно на конструктивное и контрольное множества. Так как руководящих принципов для проектировщика в промежуточных ситуациях не существует, по крайней мере утешительно иметь большое число различных приемлемых вариантов решения. З.10. Библиографические и исторические се«бенин зда. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ Оценка параметров составляет основной предмет математической статистики, весьма полно представленный во многих классических трудах, таких, как работы Хоула (19?1) и Уилкса (1962).
Обычно на практике применяются оценки по максимуму правдоподобия и байесовские оценки, причем в качестве последних часто используется среднее значение апостериорного распределения р(йьй). Оценка по максимуму правдоподобия введена Р. А. Фишером, указавшим на многие ее замечательные свойства. К таким свойствам, в частности, относится возможность избежать решения сложного вопроса выбора соответствующей априорной плотности р(0). Необдуманное применение лапласовского принципа недостаточного основания для введения предположения о равномерных априорных распределениях, а также принятие предположения о случайности параметра, который всего-навсего неизвестен, столь сурово осуждались Фишером и Нейманом, что принципиальная основа байесовской оценки стала пользоваться дурной репутацией. В последние годы байесовским методам возвращена их былая респектабельность, что отчасти объясняется той легкостью, с которой они связывают известными условиями неизвестные параметры. С введением новых принципов, таких, как принцип максимума энтропии, разъяснились некоторые старые парадоксы (Джайнес, 1968).
Более спорная, но тем не менее живительная поддержка была оказана «субъектнвистскойэ или «индивидуалистскойо школой ста. тистнков, рассматривающей априорные распределения как средство выражения нашего представления о неизвестных параметрах (Сэвидж, !962). Так как в обычных условиях байесовские оценки и оценки по максимуму правдоподобия приводят примерно к одним и тем же результатам, то, если объем выборки достаточен, принципиальное различие этих оценок редко имеет важные последствия.
Райесовский подход к обучению при распознавании образов основан на предположении, что подходящим путем использования выборок при неизвестных условных плотностях является вычисление Р(со,)х, Х) (Браверман, 1962). Абрамсоном н Браверманом (1962) получено рекуррентное байесовское решение для обучения среднему в случае нормальной плотности, а Кии (1965) развил это решение на случай, когда неизвестны вектор среднего значения и ковариационная матрица.
Байесовское обучение для ряда иестационарных и отличных от нормального случаев исследовалось Байснером (1968) и Ченом (!969). Как пример использования байесовского обучения в самом общем смысле Лейниотнсом (1970) установлена связь между нормальным решением для случая многих переменных и хорошо известными результатами из других областей, а именно кальмановской фильтрацией в теории управления и корреляционио-оценочным детектированием в теории связи. Чином и Фу 90 Ге.
3. Оценка ларанетрое и ооучение с унителеи (1967) исследовалась сходимость этих оценок посредством сопоставления байесовского обучения и стохастической аппроксимации. Хорошее, сжатое изложение вопросов сходимости предложено Аоки (1965). Получение простого выражения для апостериорной плотности р(ОЬХ) обычно требует тщательного выбора априорной плотности р(9), так называемой «естественно сопряженной» плотности.
Спреджинсом (1965) показано, что существенное упрощение при использовании воспроизводящих плотностей получается не за счет какого- либо особого свойства априорной плотности, а благодаря наличию простой достаточной статистики для р(х~й). Введение достаточных статистик — еще один вклад Фишера. Строгое обоснование теоремы факторизации получено Леманом (1959), а анализ плотностей, приводящих к простым достаточным статистикам, проведен Дынкнным (19Ы). Проблемы, связанные с увеличением размерности, ясно разобраны в статье Кенала и Чандрасекарана (1968), оказавшей влияние и на наше отношение к данному вопросу. Задачи зти не сводятся только к параметрическим методам; кстати, применение к ним непараметрических методов более строго будет изложено в гл. 4 и 5.
Хотя задачами такого рода насыщены многие из практических проектов, в ранних изданиях нм уделялось мало внимания, видимо, в связи со сложностью анализа. Однако следы этих задач можно усмотреть в частых замечаниях о возможном несоответствии или непредставительности имеющихся данных. Кенал и Рендал (1964), рассмотрев задачу оценки ковариационных матриц, пришли к оценке, предложенной для частного случая Т. Дж. Харли, и сочли ее весьма важной. Исчерпывающие исследования, касающиеся линейного разделения, и распространение их на другие виды разделяющих поверхностей опубликованы Ковером (1965), указавшим на возможность их применения при обработке конструктивных выборок. Олейс (1966) рассмотрел задачу оценки, в которой переменные были распределены нормально, а для неизвестных параметров использовались оценки по максимуму правдоподобия.
На основании проведенного анализа им были обоснованы условия, при которых увеличение числа переменных может повлечь за собой рост ожидаемого квадратичного отклонения, он же пришел к мысли, что сходные явления возможны и в задачах классификации. К сожалению, в простых случаях это явление места не имеет. Результаты, полученные Чандрасекараном (1971), показывают, что если признаки статистически независимы, то эффект этот не проявляется никогда.
Таким образом, это явление относится к трудным для анализа зависимым случаям. Хугс (1968) предложил усреднение по задачам и разрубил этот гордиев узел, объединив задачи классификации всех типов — с полной зависимостью, полной независимостью и все промежуточные случаи. Так как усредненный по задачам уровень ошибки сначала Список литературы 91 убывает до некоторого минимума, а затем возрастает с ростом числа признаков, то можно прийти к заключению, что такое поведение типично при ограниченном числе выборок.
Нами приведены результаты для случая, когда два класса предполагаются одинаково правдоподобными. Хугсом рассмотрены также уровни ошибок для случаев произвольных априорных вероятностей, но разъяснение этих результатов слишком трудно, поскольку они бывают иногда даже хуже, чем при учете только априорных вероятностей. Абенд и Харли (1969) пришли к выводу, что это поведение обусловлено использованием оценок по максимуму правдоподобия вместо байесовских, а Чандрасекаран и Харли (1969) получили и исследовали усредненный по задачам уровень ошибки для байесовского случая.
При равенстве априорных вероятностей и равенстве числа выборок в каждом классе результаты байесовских оценок и оценок по максимуму правдоподобия оказываются одинаковыми. Другим источником дискуссий в ранних работах по распознаванию образов явился вопрос об оценке действия и сравнении различных классификаторов. Частично это можно представить из за. меток по распознаванию рукописных букв, опубликованных в июне 1960 г. и марте 1961 г.