_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf), страница 2
Описание файла
PDF-файл из архива "_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Позднеепоявились исследования в данной области и в других странах.В алгебраическом подходе новые алгоритмы распознавания строятся в видеполиномов над исходными алгоритмами (применение алгебраических корректоров) или ввиде специальных булевских функций (логических корректоров). Теоретическим базисомявляется теорема о существовании для произвольного алгоритма распознавания емуэквивалентногостандартногоалгоритма,представимоговвидепроизведенияраспознающего оператора и решающего правила /26/.
Это позволяет описать основныерезультаты вычислений произвольных алгоритмов распознавания в стандартном виде спомощью числовых матриц оценок («мер принадлежности» объектов к классам) иинформационных матриц окончательных ответов (классификаций). Матрицы оценокразличных распознающих алгоритмов являются «исходным материалом» для синтеза ввидеполиномовновыхматрицоценок,которыезадаютосновуновогоскорректированного решения задачи распознавания.
Алгебраический подход позволяетстроить алгоритмы, безошибочные на «обучающем» материале или совершающиеменьшее число ошибок, чем каждый из исходных алгоритмов.6В настоящее время существует множество разнообразных подходов и конкретныхэвристических алгоритмов для решения задач кластерного анализа (таксономии, иликлассификации без учителя), когда требуется найти естественные группировки похожихобъектов (кластеры) по заданной выборке их векторных признаковых описаний. Решения,найденные различными алгоритмами, могут существенно отличаться друг от друга и дажефактически не соответствовать заложенной в данных действительности.
Поискнаилучшего решения затруднен отсутствием общепризнанных универсальных критериевкачества решений. Методы построения оптимальных коллективных решений в задачахкластерного анализа позволяют находить такие группировки объектов, которые являютсяэквивалентными с позиций сразу нескольких исходных алгоритмов. Оптимальныекластеризациинаходятсяврезультатерешенияспециальныхдискретныхоптимизационных задач на перестановках.В настоящей монографии представлено современное состояние в областипрактических методов распознавания, классификации и анализа данных, и приведенократкое описание программной системы «РАСПОЗНАВАНИЕ», включающей основныеподходы.Книга ориентирована на круг читателей из различных предметных областей,интересующихся применением современных практических методов анализа данных ираспознавания. Поскольку данные приложения возникают в технических и гуманитарныхобластях, в науке и производстве, бизнесе и финансах, авторы хотели изложить сутьметодов и подходов максимально простым языком, доступным широкому кругучитателей, избегая излишней символики и научной строгости.
При описании отдельныхподходов авторы стремились выразить прежде всего их основную алгоритмическую суть,понимание которой является полезным для более эффективного использования системы.Следует отметить, что хотя детализированным описаниям теории и практикираспознавания посвящены сотни статей и монографий, многие представленные внастоящей монографии материалы публикуются впервые.В первой главе рассмотрена задача распознавания (классификации с учителем) исовременное состояние в области практических методов для ее решения. Рассмотреныосновные этапы в развитии теории и практики распознавания: создание эвристическихалгоритмов, модели распознавания и оптимизация моделей, алгебраический подход ккоррекции моделей.
Приведены краткие описания основных подходов (основанных напостроении разделяющих поверхностей, потенциальных функций, статистические инейросетевые модели, решающие деревья, и другие). Расширенные описания методов,включенных в систему РАСПОЗНАВАНИЕ, приведены при необходимости в третьей7главе. Более подробно описаны основные подходы и алгоритмы комбинаторнологических методов распознавания (модели вычисления оценок или алгоритмы,основанные на принципе частичной прецедентности), разработанные в ВЦ РАН.
В основеданных моделей лежит идея поиска важных частичных прецедентов в признаковыхописаниях исходных данных (информативных фрагментов значений признаков, илипредставительных наборов). Для вещественных признаков находятся оптимальныеокрестности информативных фрагментов. В другой терминологии, данные частичныепрецеденты называют знаниями или логическими закономерностями, связывающимизначения исходных признаков с распознаваемой или прогнозируемой величиной.Найденные знания являются важной информацией об исследуемых классах (образах)объектов. Они непосредственно используются при решении задач распознавания илипрогноза, дают наглядное представление о существующих в данных взаимозависимостях,что имеет самостоятельную ценность для исследователей и может служить основой припоследующем создании точных моделей исследуемых объектов, ситуаций, явлений илипроцессов.
По найденной совокупности знаний вычисляются также значения такихпрактически полезных величин, как степень важности (информативности) признаков иобъектов, логические корреляции признаков и логические описания классов объектов, ирешается задача минимизации признакового пространства.Во второй части первой главы приведены основные понятия алгебраическогоподхода для решения задач распознавания, общие выражения для записи алгебраическихи логических корректоров.Вторая глава посвящена методам решения основной задачи кластерного анализа(классификации без учителя) – нахождению группировок объектов (кластеров) в заданнойвыборке многомерных данных. Приведен краткий обзор основных подходов для решениязадачи кластерного анализа и описание комитетного метода синтеза коллективныхрешений.В третьей главе представлена первая версия универсальной программной системыинтеллектуального анализа данных, распознавания и прогноза РАСПОЗНАВАНИЕ.
Воснову требований к системе положены идеи универсальности и интеллектуальности. Подуниверсальностью системы понимается возможность ее применения к максимальноширокому кругу задач (по размерностям, по типу, качеству и структуре данных, повычисляемым величинам). Под интеллектуальностью понимается наличие элементовсамонастройкииспособностиуспешногоавтоматическогорешениязадачнеквалифицированным пользователем. Для достижения данных показателей былипроведены работы по объединению различных подходов в рамкой единой системы, в8частности, по унификации обозначений, форматов, пользовательских интерфейсов,единых форм представления результатов обработки данных и обеспечения в результатеединогокомфортногоязыкаобщенияпользователясразличнымиметодамираспознавания и кластерного анализа.В рамках Системы РАСПОЗНАВАНИЕреализующихлинейные,разработана библиотека программ,комбинаторно-логические,статистические,нейросетевые,гибридные методы прогноза, классификации и извлечения знаний из прецедентов, а такжеколлективные методы прогноза и классификации.1.
Алгоритмы распознавания, основанные на вычислении оценок. Распознаваниеосуществляется на основе сравнения распознаваемого объекта с эталонными поразличным наборам признаков, и использования процедур голосования. Оптимальныепараметры решающего правила и процедуры голосования находятся из решения задачиоптимизации модели распознавания - определяются такие значения параметров, прикоторых точность распознавания (число правильных ответов на обучающей выборке)является максимальной /25,26, 80/.2. Алгоритмы голосования по тупиковым тестам. Сравнение распознаваемого объектас эталонными осуществляется по различным«информативным» подмножествампризнаков. В качестве подобных подсистем признаков используются тупиковые тесты(или аналоги тупиковых тестов для вещественнозначных признаков) различныхслучайных подтаблиц исходной таблицы эталонов /15, 25, 26, 80/.3.
Алгоритмы голосования по логическим закономерностям.По обучающей выборке вычисляются множества логических закономерностей каждогокласса – наборы признаков и интервалы их значений, свойственные каждому классу. Прираспознавании нового объекта вычисляется число логических закономерностей каждогокласса, выполняющихся на распознаваемом объекте. Каждое отдельное «выполнение»считается «голосом» в пользу соответствующего класса. Объект относится в тот класс,нормированная сумма «голосов» за который является максимальной. Настоящий методпозволяет оценивать веса признаков, логические корреляции признаков, строитьлогические описания классов, находить минимальные признаковые подпространства /76,77, 81/.4.
Алгоритмы статистического взвешенного голосования.По данным обучающей выборки находятся статистически обоснованные логическиезакономерности классов. При распознавании новых объектов вычисляется оценкавероятности принадлежности объекта к каждому из классов, которая является взвешеннойсуммой «голосов» /37, 56, 70, 78, 80/.95. Линейная машина.Для каждого класса объектов находится некоторая линейная функция. Распознаваемыйобъект относится в тот класс, функция которого принимает максимальное значение наданном объекте.
Оптимальные линейные функции классов находятся в результатерешения задачи поиска максимальной совместной подсистемы системы линейныхнеравенств, которая формируется по обучающей выборке. В результате находитсяспециальная кусочно-линейная поверхность, правильно разделяющая максимальное числоэлементов обучающей выборки /19, 46/.6. Линейный дискриминант Фишера.Классический статистический метод построения кусочно-линейных поверхностей,разделяющих классы /19/. Благоприятными условиями применимости линейногодискриминантаФишераявляютсявыполнениеследующихфакторов:линейнаяотделимость классов, дихотомия, «простая структура» классов, невырожденность матрицковариаций, отсутствие выбросов. Созданная модификация линейного дискриминантаФишера позволяет успешно использовать его и в «неблагоприятных» случаях.7.