_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf), страница 28
Описание файла
PDF-файл из архива "_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 28 страницы из PDF
44):Рис. 44. Отображение классовПри помощи данного диалога можно отключить отображение некоторых классов илиотображать ненужные классы черным цветом. Это может быть полезно, когда мыобрабатываем выборку с большим числом классов и классы на проекции могут быть139плохо различимы. В таком случае, можно выводить один или несколько выбранныхклассов отдельно друг от друга.Закладка «Обучение».На данной закладке изображены окна настроек конкретных методов, поэтому взависимости от метода они будут выглядеть по-разному.
На рис.45 приведен пример окнанастроек метода «k-ближайших соседей».Рис. 45. Настройка методаДля начала процесса обучения надо нажать на кнопку «Начать обучение». При нажатии накнопку «По умолчанию», будут выставлены значения параметров по умолчанию. Для всехметодов доступна процедура скользящего контроля, которая управляется при помощигрупп параметров «Скользящий контроль» и «Уровень значимости доверительногоинтервала».Закладки «Результаты обучения» и «Результаты распознавания».Выглядят схожим образом, на них выводится отчет в виде HTML документа о результатахобучения и распознавания соответственно (см.
рис. 46):140Рис. 46. Фрагмент отчетаРезультаты скользящего контроля (если активизирована соответствующая опция)выводятся в виде таблицы результатов распознавания (классификации) элементовтаблицы обучения (номер объекта, результат его классификации, оценки за классы, номеристинного класса объекта, см. рис. 47) и общей сводки по классификации (рис. 48).Рис.
47. Результаты классификации141Рис. 48. Общая сводка по классификацииПри обучении тестового алгоритма дополнительно выводится найденный список опорныхмножеств с оценками их информативности (рис.49).Рис. 49. Опорные множества тестового алгоритма и их весаПри обучении метода «логические закономерности» файл отчета содержитдополнительно перечень логических закономерностей (статистически значимые выделеныжирным шрифтом, рис.50), перечень эталонов, на которых выполняется соответствующаязакономерность, и их доля от общего числа эталонов класса (рис. 51), веса признаков иперечень несократимых логических закономерностей (полученных из ранее найденных спомощью удаления части сомножителей, рис. 52).142Рис.
50. Найденные логические закономерностиРис. 51. Веса закономерностей143Рис. 52. Веса признаков и несократимые закономерностиОтчетыо результатахраспознавания аналогичны отчетам о результатахскользящего контроля.Закладка «Распознавание».На данной закладке отображается выборка, которая была загружена для распознавания.Управление изображением осуществляется точно таким же образом, как и в случаевыборки для обучения. Отличается данная закладка только наличием кнопки«Распознать», которая запускает процесс распознавания (см.
рис. 47):144Рис. 53. Закладка «Распознавание»5.1.5. Метод кластеризацииУправление методом кластеризации осуществляется по тому же принципу, что иметодом распознавания. Отличие заключается в следующем. В случае кластеризации мыимеем не 6, а 5 управляющих закладок.
Первые четыре из них аналогичны первымчетырем закладкам метода распознавания. На пятой же закладке представлены результатыкластеризации в графическом виде в соответствии с результатами работы метода (см. рис.39):Рис. 54. Управление кластеризацией5.2. Ввод и предобработка данныхВ настоящий момент в системе реализованы два различных источника данных:текстовые файлы определенного формата и источники данных ODBC (в том числе файлыMicrosoft Excel). После первичной обработки данных соответствующими модулямичтения (преобразование классообразующего признака в ODBC-reader’е), происходитдополнительная обработка данных для стандартизации работы методов.Общий принцип любой обработки следующий: выборки подразделяются на«главные» и «зависимые».
Главная выборка – это выборка, которая используется дляобучения методов распознавания, зависимые – это выборки для обучения коллективных145методов и распознавания. Любые преобразования, совершаемые с зависимымивыборками, базируются на соответствующем преобразовании главной выборки.5.2.1. Количественные признакиВ данном случае признаки по элементам главной выборки преобразуются так,чтобы в результате их выборочные средние и дисперсии были равны, соответственно, 0 и1.
Для зависимых выборок при преобразовании признаков используются значения сдвигаи коэффициенты масштабирования, полученные на главной выборке.5.2.2. Обработка номинальных признаковПризнак считается номинальным в том случае, если среди его значенийвстречается хотя бы одно нечисловое (символьное) значение.В случае главной выборки последовательно перебираются все значения.
Еслинекоторое значение не встречалось ранее, то ему присваивается очередной номер и егозначение заменяется на этот номер. Если некоторое значение встречалось ранее, тоиспользуется номер, который был создан для него ранее. Нумерация начинается с 0.В случае зависимого признака используются наборы значений и порядковыеномера, которые были созданы для соответствующего признака главной выборки. Еслинекоторое значение не встречается среди значений главного признака, то оно считаетсянеизвестным.Если признак по главной выборке определен как числовой, то любое нечисловоезначение обрабатывается как неизвестное значение признака.5.2.3. Неизвестные значенияЕсли среди значений некоторого признака встречаются неизвестные, то онизаменяются на средние значения соответствующего признака.
При этом если некоторыйметод поддерживает обработку неизвестных значений специальным образом, топриоритет отдается способу данного метода.5.2.4. Замена главной выборкиЕсли пользователь загрузил новую главную выборку, то все зависимые от неевыборки будут обработаны в соответствии с новой главной выборкой.1465.2.5. Классообразующий признакКлассообразующий признак преобразуется также, как и обычный номинальныйпризнак. При этом несущественно, является ли он числовым или нет.Существенные отличия:Нумерация начинается с 1.Значения не смещаются и не масштабируются, они всегда 1,2,3,...Неизвестные значения заменяются на -1.5.3. Структура программыВся система разбита на модули, которые реализуют разработанный и жесткозафиксированныйинтерфейс.ОсновныммодулемпрограммыявляетсяEngine,отвечающий за управление всеми процессами, происходящими в системе, и связь междумодулями.
Вторым важным модулем является GUI (graphical user interface), которыйотвечает за графический интерфейс пользователя, то есть меню, панели инструментов,графическое представление данных и результатов работы методов. Завершают списокгруппа однотипных модулей обработки данных, реализующих различные математическиеметоды распознавания и кластеризации, и группа модулей загрузки данных. Общаяструктура системы представлена на рисунке 55.GUIReader 1Reader 2EngineReader mMethod 1Method 2Method nРис. 55. Управление кластеризациейТакое устройство позволяет, во-первых, проводить независимую модернизациюразличных частей программы, и, во-вторых, свободно наращивать математическую частьи добавлять новые источники данных.
Более того, фиксированный интерфейс обменаданных между модулями предоставляет конечному пользователю возможность написания147собственных методов и присоединения их к системе без участия первоначальныхразработчиков.Еще одной важной особенностью организации программы является широкоеиспользование динамического связывания. Каждый метод реализован в виде отдельнойдинамической библиотеки и может модернизироваться без затрагивания других частейпрограммы. Кроме того, не требуется производить каких-то сложных процедур установкиновых методов или модулей чтения – новые модули подключаются «на лету», простымпереписыванием соответствующей библиотеки в директорию методов или источниковданных.Различные математические методы и полезные утилиты собраны в отдельнойстатической библиотеке.
Это позволяет использовать разработанные и уже отлаженныеэффективные процедуры, такие как решение задачи целочисленного линейногопрограммирования или нахождения максимальной совместной подсистемы неравенств, вновых методах распознавания.Важно отметить так же существенную параллельность работы системы, котораявыражается в том, что все процессы обучения, распознавания, загрузки и обработкиданных выполняются в разных потоках.
Это обстоятельство имеет важные последствиякак для удобства работы с программой (пользователь получает возможность работать сграфической оболочкой в то время, как могут обучаться методы), так и для скоростивычислений. При использовании многопроцессорной машины это дает существенноеувеличение быстродействия программного комплекса. Эта возможность позволяет такжераспределять вычисления по сети в том случае, если библиотеки методов реализованы нев виде динамических библиотек, а в виде объектов DCOM.148СПИСОК ИСПОЛЬЗОВАННЫХ1. Айвазян С.А.