Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 4
Текст из файла (страница 4)
Следует подчеркнуть, что разработанные критерии являются результатом анализаогромного массива экспериментальных данных, а не результатом каких-либотеоретических расчетов. Более того, в большинстве случаев теоретическая физика неспособна объяснить причину успешного выполнения тех или иных критериев, носящихэмпирических характер.С точки зрения конструирования новых неорганических соединений, основнойспособ разработки эмпирических критериев должен заключаться в подборе такихсвойств химических элементов или функций от этих свойств, которые бы образовывали14пространство (желательно, с минимальным числом измерений), в котором известныевеществаобразовывалинепересекающиесяобласти(кластеры).Основнымдостоинством таких критериев является их простота, позволяющая построитьнаглядные проекции в полученном пространстве свойств, например, в виде двух илитрехмерных проекций.
Но не следует забывать и о существенных недостатках:высокая трудоемкость разработки эмпирических критериев;эмпирические критерии с малой размерностью признакового пространства немогутучитыватьвсюсовокупнуюсложностьхимическихсоединений,принадлежащих к разным классам веществ;эмпирические критерии могут утратить прогнозирующую способность врезультате появления новых данных, которые не согласуются со старым опытом(заметим, что изменение критериев часто либо невозможно, либо связано сбольшими затратами).Стоит отметить, что естественным развитием эмпирических критериев с малойразмерностью являются сложные многомерные критерии, поиск которых до эрыбурного развития вычислительных систем был не возможен.1.1.3. Многомерные классифицирующие правилаПереход от поиска простых эмпирических критериев к более сложным оказалсявозможнымтолькосиспользованиемсовременныхвычислительныхсистем,оснащенных специальными программами анализа больших массивов данных.
Поискмногомерных закономерностей является результатом эволюции рассмотренных ранееэмпирических методов. Применение компьютеров и программ поиска многомерныхклассифицирующихзакономерностейвбольшихобъемахэкспериментальнойинформации позволяет резко сократить время разработки новых критериев ивидоизменения старых критериев в связи с появлением новых данных, вступающих впротиворечие с найденными взаимосвязями. При этом размерность критериевограничивается только вычислительной мощностью современных компьютеров ивозможностями программ анализа больших массивов данных.С точки зрения простоты преимущества одно- и двухмерных критериевстановятся несущественными после появления ЭВМ, с помощью которых можноотносительно быстро спрогнозировать новые вещества, используя многомерныеклассифицирующие правила. Средства современной визуализации любой проекциимногомерного пространства признаков позволяют исследователям анализироватьполученные результаты.15Появление концепции «черного ящика» позволило подойти к решению сложноформализуемых задач, в которых исследователь располагает только набором входных ивыходных параметров, но не знает, каким образом входные параметры влияют нарезультат.
Совокупность подобных задач и методов их решения называют анализомданных (data analysis или data mining [27]). К недостаткам этих методов, с точки зрениялюбой предметной области, можно отнести не только недостаточную строгостьполученных моделей, но и частую невозможность их интерпретации, например, вслучае использования самообучающихся нейронных сетей. Однако, при отсутствиихорошо работающих теоретических методов (см. квантовомеханический подход), этиметоды являются, пожалуй, единственно возможным вариантом получить некоторуюмодель происходящих процессов.
Другая противоположность – полный отказ от таких“нестрогих” методов и использование только экспериментов в неорганической химииокажется слишком затратным.По сути, поиск многокритериальных классифицирующих правил возможентолько при использовании больших массивов фактографических данных по свойствамвеществ и материалов. Наличие такого массива данных означает автоматическоеиспользование БД по свойствам неорганических веществ и материалов.
Т.е. приходим киспользованию информации из материаловедческих БД для поиска взаимосвязей.Данный подход широко известен - Knowledge Discovery in Databases. Сам подход незадает набор методов обработки или пригодные для анализа алгоритмы, он определяетпоследовательность действий, которую необходимо выполнить для того, чтобы изисходных данных получить знания, пригодные для дальнейшего использования.Данный подход универсальный и не зависит от предметной области, что является егонесомненным достоинством.Knowledge Discovery in Databases (KDD) – это процесс поиска полезных знанийв «сырых данных».
KDD включает в себя вопросы: подготовки данных, выбораинформативных признаков, очистки данных, применения методов Data Mining,постобработки данных и интерпретации полученных результатов. Безусловно,основным звеном всего этого процесса являются методы Data Mining, позволяющиеобнаруживать знания.Процесс Knowledge Discovery in Databases может быть представлен в виденабора следующих шагов (рис.
1.1.2): Подготовка исходного набора данных. Этот этап заключается в созданиинабора данных, в том числе из различных источников, выбора обучающей выборки и16т.д. Для этого должны существовать развитые инструменты доступа к различнымисточникам данных. Предобработка данных. Для эффективного применения методов Data Miningследует обратить внимание на вопросы предобработки данных. Данные могут бытьизбыточны, недостаточны и т.д. Данные могут содержать пропуски, шумы, выбросы ит.д. Данные должны быть качественны и корректны с точки зрения используемогометода Data Mining. Поэтому второй этап KDD заключается в предобработке данных.Если размерность исходного пространства очень большая, то желательно применятьспециальные алгоритмы понижения размерности.
Под последним понимается как отборнаиболее информативных признаков, так и отображение данных в пространствоменьшей размерности.Источники данныхВыборкаИсходные данныеПредобработкаПредобработанные данныеТрансформацияТрансформированные данныеData MiningВзаимосвязиИнтерпретацияИспользование взаимосвязейРис. 1.1.2. Процесс Knowledge Discovery in Databases Трансформация и нормирование данных. Этот шаг необходим дляприведения информации к пригодному для последующего анализа виду. Необходимопроделать такие операции, как приведение типов, квантование, нормирование и прочее.Кроме того, некоторые методы анализа требуют, чтобы исходные данные былипредставлены в некотором определенном виде.
Например, нейронные сети работаюттолько с числовыми данными, причем они должны быть нормированы. Нахождение закономерностей (Data Mining). На этом шаге применяютсяразличные алгоритмы для нахождения знаний. Информация, найденная в процессеприменения методов Data Mining, должна быть нетривиальной и ранее неизвестной.Знания должны описывать новые связи между свойствами, предсказывать значения17одних признаков на основе других и т.д. Найденные знания должны быть применимы ина новых данных с некоторой степенью достоверности. Постобработка данных. Интерпретация результатов и применение полученныхзнаний.При использовании KDD наиболее важным является этап подготовки данных ивыбора алгоритмов для поиска взаимосвязей в данных.1.2. Математические методы распознаванияДля поиска взаимосвязей в больших массивах данных часто применяютматематические методы интеллектуального анализа данных, известные также какраспознавание образов.
Термин “распознавания образов” обязан своим появлениемамериканскому ученому Фрэнку Розенблатту, который в 1960 году создал устройство,реализующее физиологическую модель зрения [28]. Свою распознающую машину онназвал персептроном (от латинского percepto – понимаю, познаю). Персептронраспознавал (различал, опознавал) зрительные образы. Так появился термин –распознавание образов. При развитии данного направления решались не только задачираспознавания изображений, но и другие задачи, которые было сложно формализовать,используя математические модели.
Распознавание образов использовалось приобработке зашумленных сигналов, речи и др. Основная черта входных данныхзаключалась в их неполноте, слабой структурированности и противоречивости, т.е. вовсем, что затрудняет попытки формализации.За полвека, прошедшие со времени создания персептрона, интеллектуальныйанализ данных и распознавание образов сильно развились и нашли широкоеприменение.
В обзоре затруднительно очертить все проблемы интеллектуальногоанализа данных и области использования его математических методов в различныхсферах деятельности человека. Несмотря на то, что большинство применений методовраспознавания образов относится не к распознаванию изображений, а к решению задачклассификации, прогнозирования, идентификации, до сих пор ученые используюттермины, пришедшие в эту область из работ основоположников.На текущем этапе развития область, именуемая интеллектуальным анализомданных, решает следующий ряд задач:Кластер-анализ (автоматическая классификация или распознавание образов безучителя);Поискнаиболееважныхклассифицирующихпризнаков(параметровклассификации);Распознавание образов и прогнозирование (классификация с учителем);18Поиск данных, существенно отклоняющихся от выявленных взаимосвязей (анализаномалий);Построение коллективных решений в задачах классификации (комитетныеметоды).В настоящей работе системы интеллектуального анализа данных используютсядля автоматического поиска нелинейных зависимостей в данных.