_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 25
Текст из файла (страница 25)
Рис. 45. Настройка метода
Для начала процесса обучения надо нажать на кнопку «Начать обучение». При нажатии на кнопку «По умолчанию», будут выставлены значения параметров по умолчанию. Для всех методов доступна процедура скользящего контроля, которая управляется при помощи групп параметров «Скользящий контроль» и «Уровень значимости доверительного интервала».
Закладки «Результаты обучения» и «Результаты распознавания».
Выглядят схожим образом, на них выводится отчет в виде HTML документа о результатах обучения и распознавания соответственно (см. рис. 46):
Рис. 46. Фрагмент отчета
Результаты скользящего контроля (если активизирована соответствующая опция) выводятся в виде таблицы результатов распознавания (классификации) элементов таблицы обучения (номер объекта, результат его классификации, оценки за классы, номер истинного класса объекта, см. рис. 47) и общей сводки по классификации (рис. 48).
Рис. 47. Результаты классификации
Рис. 48. Общая сводка по классификации
При обучении тестового алгоритма дополнительно выводится найденный список опорных множеств с оценками их информативности (рис.49).
Рис. 49. Опорные множества тестового алгоритма и их веса
При обучении метода «логические закономерности» файл отчета содержит дополнительно перечень логических закономерностей (статистически значимые выделены жирным шрифтом, рис.50), перечень эталонов, на которых выполняется соответствующая закономерность, и их доля от общего числа эталонов класса (рис. 51), веса признаков и перечень несократимых логических закономерностей (полученных из ранее найденных с помощью удаления части сомножителей, рис. 52).
Рис. 50. Найденные логические закономерности
Рис. 51. Веса закономерностей
Рис. 52. Веса признаков и несократимые закономерности
Отчеты о результатах распознавания аналогичны отчетам о результатах скользящего контроля.
Закладка «Распознавание».
На данной закладке отображается выборка, которая была загружена для распознавания. Управление изображением осуществляется точно таким же образом, как и в случае выборки для обучения. Отличается данная закладка только наличием кнопки «Распознать», которая запускает процесс распознавания (см. рис. 47):
Рис. 53. Закладка «Распознавание»
5.1.5. Метод кластеризации
Управление методом кластеризации осуществляется по тому же принципу, что и методом распознавания. Отличие заключается в следующем. В случае кластеризации мы имеем не 6, а 5 управляющих закладок. Первые четыре из них аналогичны первым четырем закладкам метода распознавания. На пятой же закладке представлены результаты кластеризации в графическом виде в соответствии с результатами работы метода (см. рис. 39):
Рис. 54. Управление кластеризацией
5.2. Ввод и предобработка данных
В настоящий момент в системе реализованы два различных источника данных: текстовые файлы определенного формата и источники данных ODBC (в том числе файлы Microsoft Excel). После первичной обработки данных соответствующими модулями чтения (преобразование классообразующего признака в ODBC-reader’е), происходит дополнительная обработка данных для стандартизации работы методов.
Общий принцип любой обработки следующий: выборки подразделяются на «главные» и «зависимые». Главная выборка – это выборка, которая используется для обучения методов распознавания, зависимые – это выборки для обучения коллективных методов и распознавания. Любые преобразования, совершаемые с зависимыми выборками, базируются на соответствующем преобразовании главной выборки.
5.2.1. Количественные признаки
В данном случае признаки по элементам главной выборки преобразуются так, чтобы в результате их выборочные средние и дисперсии были равны, соответственно, 0 и 1. Для зависимых выборок при преобразовании признаков используются значения сдвига и коэффициенты масштабирования, полученные на главной выборке.
5.2.2. Обработка номинальных признаков
Признак считается номинальным в том случае, если среди его значений встречается хотя бы одно нечисловое (символьное) значение.
В случае главной выборки последовательно перебираются все значения. Если некоторое значение не встречалось ранее, то ему присваивается очередной номер и его значение заменяется на этот номер. Если некоторое значение встречалось ранее, то используется номер, который был создан для него ранее. Нумерация начинается с 0.
В случае зависимого признака используются наборы значений и порядковые номера, которые были созданы для соответствующего признака главной выборки. Если некоторое значение не встречается среди значений главного признака, то оно считается неизвестным.
Если признак по главной выборке определен как числовой, то любое нечисловое значение обрабатывается как неизвестное значение признака.
5.2.3. Неизвестные значения
Если среди значений некоторого признака встречаются неизвестные, то они заменяются на средние значения соответствующего признака. При этом если некоторый метод поддерживает обработку неизвестных значений специальным образом, то приоритет отдается способу данного метода.
5.2.4. Замена главной выборки
Если пользователь загрузил новую главную выборку, то все зависимые от нее выборки будут обработаны в соответствии с новой главной выборкой.
5.2.5. Классообразующий признак
Классообразующий признак преобразуется также, как и обычный номинальный признак. При этом несущественно, является ли он числовым или нет.
Существенные отличия:
-
Нумерация начинается с 1.
-
Значения не смещаются и не масштабируются, они всегда 1,2,3,...
-
Неизвестные значения заменяются на -1.
5.3. Структура программы
Вся система разбита на модули, которые реализуют разработанный и жестко зафиксированный интерфейс. Основным модулем программы является Engine, отвечающий за управление всеми процессами, происходящими в системе, и связь между модулями. Вторым важным модулем является GUI (graphical user interface), который отвечает за графический интерфейс пользователя, то есть меню, панели инструментов, графическое представление данных и результатов работы методов. Завершают список группа однотипных модулей обработки данных, реализующих различные математические методы распознавания и кластеризации, и группа модулей загрузки данных. Общая структура системы представлена на рисунке 55.
Рис. 55. Управление кластеризацией
Такое устройство позволяет, во-первых, проводить независимую модернизацию различных частей программы, и, во-вторых, свободно наращивать математическую часть и добавлять новые источники данных. Более того, фиксированный интерфейс обмена данных между модулями предоставляет конечному пользователю возможность написания собственных методов и присоединения их к системе без участия первоначальных разработчиков.
Еще одной важной особенностью организации программы является широкое использование динамического связывания. Каждый метод реализован в виде отдельной динамической библиотеки и может модернизироваться без затрагивания других частей программы. Кроме того, не требуется производить каких-то сложных процедур установки новых методов или модулей чтения – новые модули подключаются «на лету», простым переписыванием соответствующей библиотеки в директорию методов или источников данных.
Различные математические методы и полезные утилиты собраны в отдельной статической библиотеке. Это позволяет использовать разработанные и уже отлаженные эффективные процедуры, такие как решение задачи целочисленного линейного программирования или нахождения максимальной совместной подсистемы неравенств, в новых методах распознавания.
Важно отметить так же существенную параллельность работы системы, которая выражается в том, что все процессы обучения, распознавания, загрузки и обработки данных выполняются в разных потоках. Это обстоятельство имеет важные последствия как для удобства работы с программой (пользователь получает возможность работать с графической оболочкой в то время, как могут обучаться методы), так и для скорости вычислений. При использовании многопроцессорной машины это дает существенное увеличение быстродействия программного комплекса. Эта возможность позволяет также распределять вычисления по сети в том случае, если библиотеки методов реализованы не в виде динамических библиотек, а в виде объектов DCOM.
СПИСОК ИСПОЛЬЗОВАННЫХ
1. Айвазян С.А. и др. ПРИКЛАДНАЯ СТАТИСТИКА: Классификация и снижение размерности, М. Финансы и статистика, 1989.
2. Айзерман М.А., Браверманн Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970.-384 с.
3. Баскакова Л.В., Журавлев Ю.И. Модель распознающих алгоритмов с представительными наборами и системами опорных множеств //Журн. вычисл. матем. и матем. физики. 1981. Т.21, № 5. С.1264-1275.
4. Бирюков А.С., Виноградов А.П., Долгих Н.А., Рязанов И.В., Рязанов В.В., Оперативная обработка данных дистанционного зондирования в целях прогнозирования. Доклады 10-й Всероссийской конференции "Математические методы распознавания образов (ММРО-10)", Москва, 2001, 169-172.
5. Богачев А.В., Булавин Е.С., Рязанов В.В., Анализ материалов многозональной съемки с целью определения преобладающих пород. Экономико-математическое моделирование лесохозяйственных мероприятий. Л.:Лен.НИИ ЛХ. 1980. C.58-62.
6. Богомолов В.П., Виноградов А.П., Ворончихин В.А., Журавлев Ю.И., Катериночкина Н.Н., Ларин С.Б., Рязанов В.В., Сенько О.В. Программная система распознавания ЛОРЕГ : алгоритмы распознавания, основанные на голосовании по системам логических закономерностей, М.: ВЦ РАН , 1998. 63 с.
7. Богомолов В.П., Виноградов А.П., Ларин С.Б., Рязанов В.В., О некоторых результатах распознавания рукописных цифр с использованием моделей распознавания, основанных на принципе частичной прецедентности, Доклады 7-й Всероссийской конференции "Математические методы распознавания образов (ММРО-10)", Пущино, 1995, 75-76.
8. Бонгард М.М. Проблема узнавания. М.: Наука, 1967. 320 с.
9. Бушманов О.Н., Дюкова Е.В., Журавлев Ю.И., Кочетков Д.В., Рязанов В.В. Система анализа и распознавания образов, Распознавание, классификация, прогноз: Мат. методы и их применение. М.:Наука, 1988. Вып.2. С.250-273.
10. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов "Кора" // Алгоритмы обучения распознаванию образов. М.: Сов.радио, 1973. C. 8-12.
11. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). – М.:Наука, 1974.-415 с.
12. Виноградов А.П. , Журавлев Ю.И., Рязанов В.В., Чернявский Г.М., Разработка системы оперативного прогнозирования сельскохозяйственного урожая на территории РФ, Доклады 10-й Всероссийской конференции "Математические методы распознавания образов (ММРО-10)", Москва, 2001, 217-219.