Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 28
Текст из файла (страница 28)
4.2), Точки прямоугольника с целочисленными координатами назовем узлами. Каждой ломаной, выходящей из узла (1,1) и идущей в узел (т, и) по правилу, что из узла (й, 1) ломаная может попасть только в один из узлов (й + 1, 1), (й -! 1, 1+ 1), (й,! + 1), соответствует вариант сопоставления последовательных отсчетов двух слов. Ограничения на колебания длительности произнесения отдельных звуков можно задать в виде прямых, параллельных диагонали прямоугольника. Расстояние между двумя словами берется как минимум по разрешенным колебаниям суммы (по столбцам и строкам) квадратов разностей соответствующих элементов матриц, т. е. берется простейшее расстояние. Новое слово идентифицируется с тем эталоном, к которому оно оказывается ближе.
В настоящее время на распознавание одного слова при словаре в 100 — 200 слов и одном дикторе коммерческие системы тратят до 1 — 2 с времени и обеспечивают среднюю правильность результатов опознания 98 — 99 %. Один из путей повышения надежности распознавания— это сопоставление с одним словом нескольких эталонов, как 110 это предложено в п.1.!.3. При этом возникает чисто статистическая задача выделения небольшого числа представительных вариантов произнесения слова.
4.3.2. Групповая классификация. В техническон и реже медицинской диагностике иногда априори известно, что поступившая на диагностику партия из 1 объектов Х вЂ” (Х,, ., Х,) извлечена из одного из классов. Прн этом наблюдения Х, (з =- 1, ..., 1) при условии, что класс фиксиро- мо Ю гз М о зтлпон Рис. 4.2.
Схема сопоставления координат двух вариантов произнесения одного и того же слона (зталон н образец): — — траектория сопоставления (тС); — — границы отклонения ТС аан, независимы между собой. Предположим сначала, что нам известны нт — априорные плотности классов и ~т (Х)— плотности распределения Х в классах 1 = 1, ..., (г. Тогда бапесовское правило классификации должно быть по аналогии с (1.66) следующим: принимается гипотеза Нт, если Х 6 ~ Кг, где Я,= Х:у„-=- ~х (пй(Х )():,(Х ))- — (п(я;(и;) ! т 1 для всех 1~( . (4.!8) Очевидно, что если исследователь не знает ят и ~л но может оценить их по выборочным данным„ то целесообразно в (4.18) заменить нт и )т на их оценки.
Частный слУчай, когда )г 6 Дг(Мл Х), изУчен в Работах !97, 98). 14! выводы 1. Одним из основных инструментов применения статистических методов классификации является понятие условной вероятности попадания в один из классов при заданном наблюдении Р (случай ~Х) или, как принято говорить, понятие группы риска. Оно позволяет эффективно выделять объекты, требующие наибольшего внимания, и производить поправку на состав основной и контрольной групп при сравнительных испытаниях. 2. При предсказании будущих событий эффективно введение понятия г (1, Х) — мгновенного риска (или интенсивности) стать случаем в момент 1 при условии, что объект с характеристикой Х оставался не-случаем до момента времени 1 (см.
формулу (4.7)). Для того чтобы уменьшить число наблюдений, необходимых для оценки г (1, Х), и для более легкой интерпретации г (1, Х), Л. Кокс предложил факторизовать риск на два сомножителя г(1, Х) - д(Х) Ь(1) и оценивать параметры, входящие в д(Х), независимо от функции й (1). В случае, когда д (Х) = ехр (Х'6) и Ь (1) = = ехр (е, + е1), удается установить связь между подходом с использованием понятия мгновенного риска и подходом с условной вероятностью стать случаем, оцененной с помощью дискриминантного анализа.
3. Понятие мгновенного риска при надлежащей параметризации позволяет изучать динамику изменения (убывания) прогностической силы результатов прошлого обследования объекта с целью определения оптимального интервала между периодическими обследованиями. 4.
При распознавании сигналов часто используются простейшие классификационные правила, в которых каждый класс задается набором эталонов, а новый объект приписывается к тому классу, к одному из эталонов которого он оказывается ближе. 5. Если априори известно, что поступившие на классификацию 1 наблюдений Х = (Х„..., Х,) являются независимой выборкой нз одного из классов„то общее правило классификации строится исходя из плотностей Раздел |Е КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛАСТЕР-АНАЛИЗА) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАС ПРЕДЕЛ ЕН И Й В этом разделе описаны методы классификации объектов (индивидуумов, семей, предприятий, городов, стран, технических систем, признаков и т.
д.) 0„0„..., О„в ситуации, когда отсутствуют так называемые обучающие выборки, а исходная информация о классифицируемых объектах представлена либо в форме матрицы Х «обьект — свойство» х'" хоо .. хьо » ' П х0» х|ю ... х'„"' где х,"' †значен)-гопризнаиа на (-м статистически обследованном объекте (так что (-й столбец этой матрицы Х, =.
= — (х,"', х)", ..., х,'ю)' характеризует объект О,, т. е. представляет результат его статистического обследования по всем р анализируемым переменным), либо в форме матрицы р попарных взаимных расстояний (близостей) объектов Рм Рг« " Рт Р = Р»» Р»« " Р«» Рю Р»» - Р»» где величина Ры хаРактеРизУет взаимнУю отдаленность (или близость) объектов О, и Он Переход от формы исходных данных типа «объект— свойство» к форме матрицы попарных расстояний осуществляется посредством задания сгюсоба вычисления расстояния (близости) между парой объектов, когда известны координаты (значепия признаков) каждого из них (вопросам выбора метрики в исследуемом признаковом пространстве посвящена гл.
11; см. также З 5.2, 7.6). Обратный переход — от формы записи исходных данных в виде матрицы наварных расстояний (близостей) между объ- ыз ектами к форме, представленной матрицеи еобъект — свойство», осуществляется с помощью специального инструментария многомерного статистического анализа, называемого многомерным метрическим гикалированием (см. гл |6). В зависимости от наличия и характера априорных сведении о природе искомых классов н от конечных прикладных целей исследования следует обратиться либо к гл. 6, где описаны методы расщепления смесей вероятностных распределений, которые оказываются полезными в том случае, когда каждыи ()-и) класс интерпретируется как параметрически заданная одномодальная генеральная совокупность г', (Х; О,) (/ .= 1,2, ., /г) при неизвестном значении определяюще~ о ее векторного значения параметра 8, и соответственно каждое из классифицируемых наблюдений Х, считается извлеченным из однои из этих (но не известно, из какои именно) генеральных совокупностей; либо к гл.
7, где описаны методы автоматической классификации (кластер-анализа) многомерных наблюдений, которыми исследователь вынужден пользоваться, когда не имеет оснований для параметрического представления искомых классов, а подчас даже просто для интерпретации классифицируемых наблюдении в качестве выборки из какои-либо вероятностнои генеральной совокупности; либо, наконец, к гл. 8, в которой излагаются основные классификационные процедуры иераркичес«ого типи, используемые в ситуациях, когда «на выходе» исследователь хочет имс гь не столько окончательный вариант разбиения анализируемой совокупности объектов на классы, сколько общее наглядное представление о стратификационной структуре этой совокупности (например, в виде специально устроенного графа — дендрограммы).
Глава 5. ОСНОВНЪ|Е ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ, ИСПОЛЬЗУЕййЫЕ В МЕТОДАХ КЛАССИЦ»ИКАЦИИ БЕЗ ОБУЧЕНИЯ Общая (нестрогая) постановка задачи классификации объектов или признаков в условиях отсутствия обучающих выборок Говоря о классификации совокупности объектов, подразумеваем, что каждый из них задан соответствующим столбцом матрицы Х либо геометрическая структура их попарных расстояний (близостей) задана матрицей р. Аналогич- но интерпретируется исходная информация в задаче классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы Х. В дальнейшем, если зто специально не оговорено, не будем разделять изложение атон проблемы на «объекты» и «признаки», поскольку все постановки задач и основная методологическая схема исследования здесь общие.
В общей (нестрогой) постановке проблема лассификации объектов закмочаетсн в том, чтобы всю анализируемую совокупность объектов О = (О,) (1 - 1, и), статистически представленную в виде матриц Х или р, разбить на сравнительно небольшое число (заранее известное или нет) однородных, в определенном смысле, групп или классов. Для формализации этой проблемы удобно интерпретировать анализируемые объекты в качестве точек в соответствующем признаковом пространстве, Если исходные данные представлены в форме матрицы (Х), то эти точки являются непосредственным геометрическим изображением многомерных наблюдений Х„ Х», ..., Х„ в р-мерном пространстве П» (Х) с координатными осями Охн), Ох1»), ..., Ох(»).
Если же исходные данные представлены в форме матрицы попарных взаимных расстояний р, то исследователю не известны непосредственно координаты этих точек, но зато задана структура попарных расстояний (близостеи) между объектами. Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность.
Тогда проблема классификации состоит в разбиении анализируемой совокупности точек— наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты, принадлежащие одному классу, находились бы на сравнительно небольцгих расстояниях друг от друга, Полученные в результате разбиения классы часто называют клаьтерама (таксонами, образами) ', а методы их нахождения соответственно кластер-анализом, численной таксономиейг распознаванием образов с самообучением. Однако, берясь за решение задачи классификации, исследователь с самого начала должен четко представлять, » С1иыег (англ.) — гроздь, пучок, скопление, группа злеменгов, характернзуемых каким.