_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 12

Файл №1185318 _учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).doc) 12 страница_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318) страница 122020-08-252020-08-25СтудИзба

_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).doc

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 12)

Рис.18. Общая схема комитетного синтеза коллективных кластеризаций

Вопрос выбора исходного набора алгоритмов кластеризации является в значительной мере «открытым» и здесь естественны различные подходы.

В качестве подобного «базиса» может использоваться произвольный набор имеющихся кластеризаций. Полученное коллективное решение (набор кластеров) уже интерпретируется в терминах тех исходных кластеров, пересечению которых соответствуют кластеры коллективного решения.

Другой подход к выбору базисного набора коллективных кластеризаций состоит в использовании набора различных кластеризаций, полученных в рамках одного подхода. Например, это могут быть кластеризации, соответствующие различным локально- оптимальным разбиениям по некоторому критерию качества разбиений (например, сумме квадратов дисперсий).

Представляет интерес использование и «человеко-машинных» подходов. Действительно, кластеризация с помощью автоматических формальных процедур очень сильно зависит от используемых метрик, критериев качества, зашумленности самих данных, множества параметров алгоритмов и других причин. В то же время, человеческая способность визуального выявления закономерностей на плоских конфигурациях превосходит формальные подходы. Способность человека «точного» решения «плоских» задач кластерного анализа и возможность синтеза оптимальных коллективных кластеризаций были положены в основу видео-логического метода для решения задачи кластерного анализа.

В данном подходе задача кластерного анализа решается в два этапа. Сначала пользователь просматривает проекции выборки на различные плоскости пар признаков и выделяет кластеры объектов на тех проекциях, где просматриваются некоторые сгущения или группировки. Далее, полученный набор плоских решений используется в качестве исходного множества кластеризаций для построения коллективного решения. Таким образом, решение задачи кластерного анализа находится в результате комитетного синтеза набора точных кластеризаций, полученных по различным частям обрабатываемой выборки /79/.

Для применения метода синтеза оптимальных коллективных решений в случаях различного числа кластеров полученных исходными алгоритмами, каждое исходное решение преобразуется к решению на кластеров, например, с помощью объединения «ближайших» кластеров в один, или «дублирования» некоторых классов (создания равных столбцов в соответствующих матрицах ).

Глава 3. Алгоритмы распознавания и интеллектуального анализа данных в системе РАСПРОЗНАВАНИЕ

В настоящем разделе приведены краткие описания реализованных в Системе РАСПОЗНАВАНИЕ математических методов для решения задач распознавания, классификации, прогноза и интеллектуального анализа данных, а также методы решения таких смежных задач, как визуализации данных и оценивания вероятности правильной классификации. Реализованные в Системе алгоритмы представляют все основные подходы, изложенные в главах 1, 2. Описания алгоритмов, уже представленных ранее, дополняются с существенным акцентом на их практическую реализацию и применение. При этом авторы старались избежать излишних повторений изложенного ранее материала.

3.1. Алгоритмы вычисления оценок

Оптимальные значения параметров алгоритмов распознавания, основанных на вычислении оценок, определяются из решения задачи оптимизации данной модели распознавания - находятся такие значения параметров, при которых точность распознавания на обучающей выборке является максимальной.

Для вычисления оценок используются формулы (1.16) или (1.17). Значения числовых параметров задают пороги близости соответствующих признаков и вычисляются как средний модуль разности значений признака по обучающей выборке: .

Для классификации применяется общее линейное решающее правило (1.14), неизвестные значения параметров которого находятся в результате решения задачи оптимизации модели. В данном случае решается задача поиска максимальной совместной подсистемы системы линейных неравенств с помощью релаксационного метода /46/(см. раздел 3.5).

3.2. Голосование по тупиковым тестам

В Системе РАСПОЗНАВАНИЕ реализован один стохастический вариант тестового алгоритма. Из таблицы обучения выбираются случайно N подтаблиц, каждая из которых состоит из 3 строк таблицы обучения, N подтаблиц, состоящих из 4 строк таблицы обучения, и т.д., N подтаблиц, состоящих из k строк таблицы обучения (здесь N и k – управляющие параметры программы). Каждая подтаблица не обязана содержать эталоны из каждого класса, т.е. допускаются подтаблицы с числом строк меньшим числа классов. Каждому тесту выбранной подтаблицы сопоставляется вес (качество), оцененный уже по полной обучающей выборке. Для каждой подтаблицы находятся все тупиковые тесты либо один минимальный тест в зависимости от выбранного алгоритма поиска. В последнем случае для таблицы обучения находится не более N(k-2) минимальных тестов случайных подтаблиц.

Обозначим множество всех найденных тупиковых тестов для подтаблиц, как и ранее, через . Пусть M₁ ={ , } множество пар строк таблицы обучения, принадлежащих равным классам, а M₂ - множество пар строк из разных классов. Число элементов множеств M₁ и M₂ обозначим, соответственно, через n₁ и n₂. Антиблизость объектов по опорному множеству определяется как .

Определим «вес» опорного множества (в нашем случае теста T) согласно выражению (3.1)

_,_(3.1)

а через – его удельный вес. Данные величины показывают, как часто бывают близки эталонные объекты одного класса и далеки объекты разных классов по выбранному опорному множеству.

Окончательно, оценки распознаваемого объекта за классы , j=1,2,…,l, вычисляются согласно следующей формуле:

_{Классификация осуществляется с помощью простейшего решающего правила.}

_{В случаях практических задач с плохой отделимостью классов тупиковые тесты будут иметь большое число столбцов или могут вообще отсутствовать. Для «управления отделимостью классов» введен управляющий параметр программы (делитель}__{- порогов), позволяющий увеличивать-уменьшать близость объектов. Для таблиц обучения с небольшим числом признаков возможно вычисление всех тупиковых тестов и, соответственно, голосование по всем тупиковым тестам. Для реализации данного варианта в Системе предусмотрена кнопка «переборный алгоритм».}

Алгоритмы голосования по логическим закономерностям классов

Основой данного метода является поиск логических закономерностей в данных. Под логическими закономерностями класса в данном случае понимаются предикаты вида

(3.2)

(или конъюнкции (3.2), соответствующие некоторому подмножеству признаков) такие, что:

хотя бы для одного объекта обучающей выборки выполнено
для любого объекта обучающей выборки выполнено ;
доставляет экстремум некоторому критерию качества где - множество всевозможных предикатов (3.2), удовлетворяющих условиям 1), 2) /71, 76/.

В системе РАСПОЗНАВАНИЕ рассматривается стандартный критерий качества: «число эталонов из класса : »/ .

Логическая закономерность класса называется частичной, если выполнены пункты 1), 3), а требование 2) заменяется более слабым 2:

(доля объектов «чужих» классов, для которых выполнено , не превышает заданный порог).

Поскольку задача оптимизации обычно многоэкстремальна, логическими закономерностями класса считаются все предикаты , доставляющие локальный экстремум критерию .

В случае вещественнозначных признаков, логической закономерности (3.2) соответствует простая геометрическая интерпретация: в некотором признаковом подпространстве имеется гиперпараллелепипед, содержащий максимальное число объектов обучения из класса и только класса . Логические закономерности являются аналогом представительных наборов для случаев бинарных и k-значных признаков /3, 10, 22/. Другие близкие понятия рассматривались в /35/ и в многочисленных публикациям по решающим деревьям (например, /16, 17/).

Алгоритм поиска множества логических закономерностей класса состоит в решении последовательности однотипных «отмеченных» задач. Число данных задач определяется автоматически согласно предполагаемому существованию , для которого стандартный критерий качества  h (h – параметр программы, именуемый как «минимальная доля объектов»). Опишем подобную «отмеченную» задачу.

Характеристики

Тип файла

Документ

Размер

5,18 Mb

Материал

Тип материала

Книга

Предмет

(ММО) Методы машинного обучения

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

_uchebnik_-zhuravlev-ju.i.-raspoznavanie.-matematicheskie-metody.-programmnaja-sistema.-prakticheskie-primenenija-2005.doc.rar

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.

_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 12

Текст из файла (страница 12)

Алгоритмы голосования по логическим закономерностям классов

Основой данного метода является поиск логических закономерностей в данных. Под логическими закономерностями класса в данном случае понимаются предикаты вида

Характеристики

Список файлов книги