Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 42

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 42 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 422017-12-212017-12-21СтудИзба

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 42)

Б.2): Таблмца 62 Исьпдпа» (арааияьпаи1 ьласснаиьапиа Классы пплуесппые с пенс~пью алспрпема 5СЫ Распредепе- пие неллю дьппа пп классам 5 ЕМ ьяасс 2 класс 1 класс 3 Таким образом, в данном примере доля неправильно раскласснфицированных с помощью алгоритма ЬЕМ наблюдений составила 6,75пь (27 наблюдений из 400). Этот результат так же, как и точность оценивания параметров смеси, можно признать вполне удовлетворительным. Рекомендации по определению мисходных позиций» алгоритмов расщепления смесей распределений 214 Из предыдущего материала главы следует, что эффектна ность используемых для расщепления смесей алгоритмов (скорость их сходимости, опасность стабилизации итерационной процедуры алгоритма на стационарной точке функции правдоподобия, не дающей ее глобального экстремума, статистические свойства получаемых оценок) существенно зависит отоыбора исходной позиции алгоритма, т.

е. от конкретных начальных приближений для числа классов, априорных или апостериорных вероятностей и т. п., которые используют на нулевой итерации алгоритма. Поэтому обычно настоятельно рекомендуется предпослать каждому нз таких алгоритмов этап так называемого ртлгдочного стотигтическпго анализа классифицируемых данных (техника разведочного статистического анализа описана в разделе %). Он предназначен для предварительного «прощупыванияр геометрической н вероятностной природы совокупности анализируемых данных н, в частности, позволяет формировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей принадлежности наблюдения каждому из классов и т.

п. Одним из основных прне- мовтакого типа анализа является проецирование анализируемых многомерных наблюдений иа плоскость таким образом, чтобы максимально сохранить при этом интересующие исследователя специфические особенности рассматриваемой совокупности данных, например наличие и общее число четко выраженных «сгустков» (классов) или эффект концентрации данных этой совокупности вдоль некоторой гиперповерхпости размерности меньшей„чем размерность исходного признакового пространства (такие процедуры носят название ли людов целенаправленного проецирования; см раздел 1Ч).

Производимый затем визуальный анализ спроецированных на плоскость исходных данных позволяет генерировать рабочпс 1ппотезы по поводу требуемых начальных приближений алгоритмов, ВЫВОДЫ 1. В задачах классификации без обучения однои из распространенных математических моделеи, используемых при описании механизма генерирования классифицируемых данных, являс»ся модель смеси вероятностных распределений, ко~да каждыи класс интерпретируется как параметрически заданная одномодальная генеральная совокупность (при неизвестном значении определяющего ее параметра), а классифицируемые наблюдения вЂ” как выборка из смеси таких генеральных совокупностеи 2 Рянить задачу раси(епления смеси распределений (в выборочном варианте) вЂ” это значит по имеющеися выборке классифицируемых наблюдении.

извлечениои из генеральноп совокупности, являющейся смесью генеральных одномодальных совокупностеи известного параметрического вида, построить статистические оценки для числа ьомпоненгов смеси, их удельных весов и параметров, их определяющих В теоретическом варианте задача расщепления смеси заключаегся в восстановлении компонентов смеси и смешивакицеи функции (удельных весов) ио заданному распределению всей (т е смешанной) генеральнои совокупности и называется задачей идентификации компонентов смеси. Эта задача не всегда имеет решение. 3. Базовая идея, лежащая в основе принятия решения, к какой из й анализируемых ~енеральных совокупностей следует отнести классифицируемое наблюдение, является однои и тон же как для модели дискриминантного анализа (классификация при наличии обучения, см.

гл ! вЂ” 4), так и для модели смеси: и в том и в другом случае пабмодепие приписывают к той генеральной совокупности (к тому компоненту смеси), в рамках которой (которого) оно выглядит наиболее правдоподобным. Однако главное отличие схемы параметрического ЛЛ от схемы автоматической классификации, построенной на модели смеси распределений, -- в спосабе оценивания неизвестных параметров, от которых зависят функции, описывающие классы (в первом случае вЂ” по обучающим выборкам, а во втором неизмеримо сложнеевЂ” в рамках одного из методов оценки параметров смеси распределений).

4. Основными «узкими местами» подхода, основипного на методе максимального правдоподобия статистического оцепиванил параметров смеси распределений, являются (помимо необходимости «угадать» общий параметрический вид распределения, задающего каждый из классов) требование ограниченности анализируемой функции правдоподобия, высокая сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходимость порождаемых ими итерационных алгоритмов. 5. «Узкими местами» подхода, основанного на методе моменпию статистического оценивания параметров смеси распределений, являются громоздкость его вычислительной реализации (особенно в случае высоких размерностей анализируемых распределений и большого числа смешиваемых классов) и относительно невысокое качество статистических свойств получаемых при этом оценок. 6.

Статистический анализ смесей распределений проводится обычно в рамках одной из двух логических схем. В первой из них реализуется логика «от оцепивания параметров смеси к класси4икации» (ЕМ-алгоритмы, основанные на методе максимального правдоподобия, методе моментов и т. д.). Во второй, напротив, идут «от классификации к оценивапию», затем, имея оценки параметров распределений внутри классов, уточняют классификацию и т. д. (алгоритм ЯЕМ адаптивного вероятностного обучения). 7.

Исследование свойств алгоритмов ВЕМ, в которых схема ЕМ-алгорнтмов дополнена байесовской идеологией и этапом вероятностного обучения (реализованным в виде специальной процедуры генерирования на ЭВМ случайных последовательностей), показало следующие их достоинства: а) они работают относительно быстро и их результаты слабо зависят от выбора «начальных приближений»; б) ВЕМ гозволяют практически избегать выхода (в процессе итераций) на неустойчивые локальные максимумы анализируемой функции правдоподобия; в) позволяют в рамках самой цроцеду- 2нв ры оценивать неизвестное число классов (компонентов смеси).

8. Поскольку эффективность используемых для расщепления смесей алгоритмов в большинстве случаев существенно зависит от выбора их «исходной позиции», целесообразно каждому из таких алгоритмов предпослать этап так называемого разведочного статистического анализа (см.

раздел 1У), который позволяет сформировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей и т. п. Гл а в а 7. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ОСНОВАННАЯ НА ОПИСАНИИ КЛАССОВ «ЯДРАМИ» Эвристические алгоритмы Рассмотрим сначала методы автоматической классифнка ции (АК), непосредственно опирающиеся на постановку задачи выделения в многомерном пространстве компактных групп точек. Такие методы и отвечающие им алгоритмы называются эвристическими, так как само понятие «компактная группа (облако) точек» не поддается строгой формализации. В прикладных задачах автоматической классификации они стали применяться одними из первых и до сих пор сохраняют большое значение в разведочном анализе данных благодаря наглядности интерпретации полученных результатов и, как правило, простоте реализации.

Для ряда эвристических процедур с развитием теории АК были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие «компактности». 7.1.1. Параллельные процедуры. Процедуры, в которых выборка вся сразу поступает на классификацию, называются параллел ьными. Алгоритм в эталонов. Следуя [56(, приведем тини ~ный пример эвристического алгоритма, основная идея которого заключается в том, что совокупность объектов, находящихся на одинаковом расстоянии от каждого из й эталонов (ядер), образует компактную группу. Пусть для классификации имеется выборка О,, ..., О„, причем 1-й объект О; характеризуется вектором признаков Х; = (хР>, ..., х~»>). Рассмотримр-мерное признаковое про- г17 странство Х«вместе с функцией «( (Хп Х;), задающей в Хл расстояние (либо степень близости).

Схема алгоритма 1. Выберем й эталонов Х1, ..., Х» и порог д«. 2. Поставим в соответствие объекту О; код из й двоичных символов е, = (е!", ..., е,'~'), где е)п = 1, если И (Х;, Х~) ( «(«и е<П =- б в противном случае. 3. Разобьем выборку на классы, относя к одному классу объекты с одинаковым кодом. В зависимости от порога д«и геометрии выборки число классов может варьироваться от ! до 2«. Анализируя полученное разбиение выборки на классы, исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Если в качестве эталонов взять векторы признаков объектов из данной выборки, то на вход алгоритма достаточно подать матрицу взаимных попарных расстояний (ры вЂ вЂ вЂ и (Хь Х,)).

В !56! рекомендуется набор эталонов составлять из й случайно выбранных точек. Укажем наиболее важные модификации алгоритма, связанные со способом выбора эталонов: а) эталоны строятся на основе представлений экспертов (или какой-либо другой априорной информации о типичных представителях классов); б) эталоны берутся нз векторов, соответствующих представителям заведомо разных классов, но не обязательно типичных в своем классе. При этом достоинством алгоритма являечся то, что число эталонов не обязано равняться числу классов; в) эталоны ма~уз пониматься в расширенном смысле, как ядра в методе динамических сгущений (см.

и. 7.4). Следукицая модификация рассматриваемой процедуры связана с возможностью варьировать порог сходства. Алгоритм взаимного поглощения. Рассмотрим процедуру автоматической классификации, целесообразность которой обосновывается в (58! правилом формирования сплоченных коллективов люден по принципу взаимного интереса и симпатии. Ключевым словом здесь является «взаимный», т. е, подразумевается, что отношение «объект О; близок (интересен) объекту О,э не симметрично и объекты О; и 07 объединяются, если не только О, близок к О;, но и наоборот.

Характеристики

Тип файла

DJVU-файл

Размер

6,51 Mb

Материал

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

ayvazyan-s.a.-buhshgaber-v.m.-enyukov-i.s.-meshalkin-l.d.-prikladnaya-statistika-1495569454-1513861681.rar

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.