_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 23
Текст из файла (страница 23)
- «inner membrane, uncleavable signal sequence».
4.5.4. Прогноз свойств новых неорганических соединений
Разработка теоретических методов поиска новых неорганических веществ с заданными свойствами является одной из важнейших проблем химии и материаловедения. Один из наиболее перспективных путей решения проблемы связан с использованием нового подхода, возникшего на стыке химии и современной информатики - с компьютерным конструированием неорганических веществ и материалов /68/. Основная гипотеза, лежащая в основе этого метода: фундаментальные свойства многокомпонентных неорганических веществ при различных условиях (температуре, давлении, соотношении компонентов и т.д.) связаны периодическими зависимостями с фундаментальными свойствами химических элементов, входящих в их состав. Существование таких зависимостей является следствием Периодического закона Д.И.Менделеева. Предполагается, что многочисленные, известные к настоящему времени, неорганические вещества подчиняются этим зависимостям.
Задача поиска зависимостей в информации БД по свойствам неорганических веществ формулируется следующим образом. Пусть i-ый химический элемент определен набором M свойств (xi1, xi2,…, xiM). Тогда K-компонентное химическое соединение описывается точкой в M*K-мерном пространстве свойств компонентов. Из-за периодичности свойств химических элементов, точки, соответствующие комбинациям близких по химической природе элементов, должны образовывать компактные классы в этом многомерном пространстве. Пусть существует некоторый набор химических соединений (в общем случае следует говорить о физико-химических системах, образованных различными элементами), для которых известна принадлежность к разным классам (обучающая выборка). При этом каждая физико-химическая система задается набором значений свойств образующих ее элементов и/или более простых соединений (простых галогенидов, оксидов, халькогенидов и т.д.). Необходимо построить в M*K-мерном пространстве гиперповерхности (геометрический аналог искомой закономерности), разделяющие физико-химические системы одного класса от систем других классов. Предполагается, что, вследствие периодичности свойств, полученные разделяющие поверхности можно использовать для определения статуса еще неисследованных физико-химических систем. Этот процесс прогнозирования требует знания только свойств химических элементов или более простых соединений, образующих неизученную физико-химическую систему. Таким образом, задача поиска веществ, подобных уже исследованным, сведена к классической задаче обучения ЭВМ классификации объектов.
Несмотря на множество алгоритмов обучения ЭВМ, поиск метода, наиболее подходящего для решения химических задач, как правило, осуществляется путем «проб и ошибок». Для того, чтобы оценить возможности различных алгоритмов при решении задач компьютерного конструирования неорганических соединений, European Office of Aerospace Research and Developments (EOARD) предложил набор тестовых задач. Система РАСПОЗНАВАНИЕ была протестирована на одной из этих задач: задаче прогнозирования двойных систем (физико-химических систем, образованных двумя химическими элементами, например, Fe-C, Ni-Al и т.д.) с образованием соединений (любого состава) при нормальных условиях (298 К и 1 атм.) и без образования соединений (твердые растворы, эвтектические системы или гетерогенные смеси).
Обучающая выборка включала 923 положительных объекта (системы с образованием соединений) и 410 отрицательных объектов (системы без образования соединений). Экзаменационная выборка состояла из 473 положительных и 219 отрицательных объектов. Для описания физико-химических систем использовались 87*2 = 174 признака (87 свойств для каждого химического элемента: атомный номер; температуры плавления и кипения; энтальпии плавления, кипения, атомизации; модуль Юнга; электроотрицательности; первые три потенциала ионизации; размерные факторы; Менделеевский номер и т.д.). Точность расчетов на контрольной выборке превысила 95% правильных ответов, что соответствует наилучшим результатам, полученным с использованием других систем распознавания.
4.5. Приложения в области обработки и распознавания изображений
4.5.1. Распознавание изображений автомобилей
Описанные методы могут быть широко применимы для распознавания графических изображений. В качестве примера приведем задачу распознавания изображений автомобилей, снятых камерой под различными углами зрения. Требуется различить изображения четырех типов – двухэтажного автобуса. микроавтобуса Шевроле. седана Сааб 9000 и купе Опель Манта 400. Каждое изображение было получено в разрешении 128х128 при одинаковом освещении и минимизации бликов, и характеризуется 18-ю признаками: компактность (квадрат периметра/площадь), округлость (квадрат среднего расстояния от центра/площадь), эксцесс и ассиметрия относительно горизонтальной и вертикальной оси, и т. п. Каждому типу автомобиля соответствует один из четырех классов, в каждом классе содержится около 200 объектов- изображений. Точность распознавания контрольных объектов (на выборке из 100 изображений) составила около 80% правильных ответов.
Примечание. Автор постановки задачи и данных -
Drs.Pete Mowforth and Barry Shepherd. Turing Institute George House. 36 North Hanover
St. Glasgow. G1 2AD
4.5.2. Распознавание рукописных цифр
Задача распознавания рукописных символов является одной из важнейших областей применения методов распознавания. В данной сфере работают исследователи многих ведущих университетов и компаний, имеются коммерческие программы распознавания оптических символов и многочисленные публикации. В работах /7, 61/ описаны результаты распознавания рукописных цифр с помощью моделей частичной прецедентности. Исходный материал составляли 1000 рукописных цифр, представление каждой цифры задавалось бинарной матрицей 16x16.
Численные эксперименты были проведены при двух способах описаний цифр: «бинарном» и «символьном». Первый вид описаний непосредственно порождался исходным бинарным представлением. Каждое описание цифры, заданное бинарной матрицей 16x16, переводилось в более грубое (но более устойчивое по элементам фиксированного класса) описание 6x6. Значениями новых признаков являются суммы элементов квадратов исходной матрицы 3x3 или прямоугольников 1x3 и 3x1. Символьные описания формировались на языке признаков, отражающих логическую и статистическую картину распределения единиц в матрице 16x16. По матрице 16x16 вычисляются признаки, характеризующие контуры цифр, гистограммы, производные контуров, число компонент связности по горизонтальным и вертикальным линиям, и др. (всего 478). Далее использовались лишь 36-47 наиболее информативных признаков.
Для обучения и контроля использовались выборки по 500 описаний. Точность распознавания с применением моделей частичной прецедентности составила около 94% при 6x6 признаковом описании и 97% при символьном. Учитывая непрезентативность выборки (исходная информация была создана с участием 10 персон), данные результаты следует считать весьма высокими.
Глава 5. Описание программного продукта
5.1. Описание графической оболочки
5.1.1. Главное окно
Основу рабочей среды программы составляет стандартный многодокументальный графический интерфейс Windows. После запуска программы на экран выводится следующее окно (см. рис. 30).
Рис. 30. Внешний вид программы
Данное окно имеет меню и панель инструментов, которые позволяют управлять программой. Все кнопки на панели инструментов дублируют некоторые пункты меню. Меню состоит из следующих пунктов: «Файл», «Проект», «Опции», «Окна», «Помощь».
На панели инструментов находятся слева направо три группы кнопок. Первая группа - кнопки управления проектами: «Создать новый проект», «Загрузить существующий проект», «Сохранить текущий проект». Вторая группа кнопок – кнопки управления методами внутри конкретного проекта: «Добавить в проект метод», «Удалить метод из проекта», «Добавить в проект метод построения коллективного решения», «Удалить из проекта метод построения коллективного решения». Третья группа кнопок – это кнопки управления загрузкой выборок с данными: «Загрузить выборку для обучения», «Загрузить выборку для обучения коллективных методов», «Загрузить выборку для распознавания».
В зависимости от режима работы некоторые кнопки могут быть недоступны, например, при решении задачи кластеризации не используется выборка для распознавания и, соответственно, не будет доступна кнопка загрузки распознаваемой выборки.
5.1.2. Главное меню
5.1.2.1. Пункт меню «Файл»
Посредством данного пункта меню происходит управление рабочими проектами системы РАСПОЗНАВАНИЕ. Состоит из пунктов: «Новый проект», «Загрузить проект», «Закрыть проект», «Сохранить проект», «Недавние проекты», «Выход».
Новый проект.
После выбора соответствующего пункта меню на экране появится диалог создания нового проекта (см. Рис. 31):
Рис. 31. Создание проекта
В левой части диалога надо выбрать один из возможных типов проектов, а в правой части - путь к директории, в которой будет храниться проект и его название. Итоговая директория, в которой будут храниться файлы проекта, будет иметь путь «Расположение»\«Название проекта». При нажатии на кнопку «...» на экране появится диалог с возможностью выбора директории проекта. Как уже говорилось выше, типы проектов подразделяются на «эксперт»/«пользователь». В первом случае пользователю будет предоставлен доступ ко всем параметрам методов и возможность самому контролировать качество обучения, во втором случае пользователю предоставляется некоторый набор готовых сценариев обучения, которые сами выбирают параметры методов и средства контроля качества обучения. В созданной директории появится файл «Название проекта.crp», который и является файлом проекта. При добавлении методов в проект в данной директории будут появляться директории с рабочими файлами соответствующих методов.
Загрузить проект.
После выбора данного пункта меню на экран выводится стандартный диалог Windows, предлагающий загрузить файл. Расширение файлов проекта - .crp. После выбора соответствующего файла на экране появится окно ранее сохраненного проекта.
Закрыть проект.
Закрывает текущий проект. Если проект не был сохранен, то выводит на экран предупреждающее сообщение.
Сохранить проект.
Сохраняет данный проект в файл, чтобы его можно было использовать в дальнейшем. При этом все методы, которые были обучены, запоминают результаты обучения и в дальнейшем при загрузке проекта можно сразу приступать к распознаванию без предварительного обучения. Стоит заметить, что методы запоминают те значения параметров, при которых они были в последний раз обучены, а не те которые в данный момент выставлены в окнах настроек.
Недавние проекты.
Выводит на экран меню со списком последних проектов, после выбора соответствующего проекта загружает его.
Выход.
Осуществляет выход из программы, аккуратно завершая при этом все происходящие процессы. Выход может произойти не сразу, а по истечении некоторого времени, которое потребуется для завершения процессов, происходящих в программе.
5.1.2.2. Пункт меню «Проект».
При помощи команд из данного меню происходит управление составными частями проекта, такими как методы и выборки. Состоит из следующих пунктов: «Загрузить обучающую выборку», «Загрузить выборку для обучения коллективных методов», «Загрузить распознаваемую выборку», «Добавить в проект», «Удалить из проекта».
Загрузить обучающую выборку.
Позволяет загрузить выборку, которая будет использоваться для обучения методов. Сначала на экране появится диалог с возможностью выбора типа загрузчика (см. рис. 32):
Рис. 32. Выбор загрузчика.
Tab reader загружает файлы формата программы LOREG /6/, Simple reader загружает текстовые файлы, содержащие выборки, значения которых разделены «,». ODBC загружает большинство стандартных типов файлов, в том числе Excel файлы.
В случае выбора «Tab reader» или «Simple reader» на экране появится стандартный диалог загрузки файлов, а в случае выбора ODBC - диалог, который позволяет указывать различные параметры загрузки из соответствующих файлов. Более подробно загрузчики и соответствующие форматы файлов будут описаны ниже.