49261 (588635), страница 2
Текст из файла (страница 2)
В методах обобщения по данным априорное разделение фактов по классам отсутствует. Здесь могут ставиться следующие цели:
-
формулирование гипотезы, обобщающей данные факты;
-
выделение образов на множестве наблюдаемых данных, группировка данных по признакам (задача формирования понятий, определенная в модели обобщения по выборкам, также часто ставится без априорного разбиения обучающей выборки по классам) [4];
-
установление закономерностей, характеризующих совокупность наблюдаемых данных [5].
Рассмотрим кратко связь между задачами обобщения и классификации и задачами, решаемыми в рамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи вывода новых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерности появления событий: определяются общий вид и параметры функций распределения вероятностей событий по данным наблюдений, делаются выводы о степени статистической зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно, в задаче формализации и вывода знаний о реальном мире нельзя не учитывать наличия статистических закономерностей в его проявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистических закономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта.
С точки зрения способа представления знаний и допущений на общий вид объектов наблюдений, методы обобщения делятся на методы обобщения по признакам и структурно-логические (или концептуальные) методы [2]. В первом случае объекты представляются в виде совокупности значений косвенных признаков. Методы обобщения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков. Структурно-логические методы, в отличие от признаковых, предназначены для решения задачи обобщения на множестве объектов, имеющих внутреннюю логическую структуру (последовательности событий, иерархически организованные сети, характеризуемые как признаками и свойствами объектов – элементов сети, так и отношениями между ними). В формально-логических системах, использующих структурно-логические методы обобщения, вывод общих следствий из данных фактов называют индуктивным выводом. Сформулированы основные вопросы, на которые должны давать ответы индуктивные логики и методы выдвижения гипотез:
-
Является ли гипотеза Н обоснованной данным знанием?
-
Существуют ли методы обоснования Н при данном знании?
-
Каковы условия для Н при данном знании, такие, что Н дает наиболее разумное и интересное объяснение?
-
Существуют методы для выдвижения гипотез на основании данного знания, дающих наиболее разумное и интересное объяснение изучаемого явления?
В экспертных системах (ЭС) для представления знаний об объектах используются обычно модификации языка исчисления предикатов без ограничения арности предикатных символов или адекватные им по выразительной мощности семантические сети [2]. Моделям обобщения на семантических сетях свойственны черты как алгоритмов обобщения по признакам, так и индуктивной логики. Здесь также определяется набор операторов, используемых при формировании обобщенного представления (гипотезы) Н, и выдвигаются критерии оценки "интересности" и обоснованности гипотез. Кроме того, в этих моделях широко используется характерный для обобщения по качественным признакам [7] аппарат теории покрытий и устанавливаются отношения на множестве значений признаков объектов-элементов сети. Методами структурного обобщения решаются обычно задачи классификации, формирования понятий, анализа сцен [2].
Для задачи обобщения по признакам известен следующий результат: каков бы ни был реальный вид разделяющей функция (в общем случае – индуктивной гипотезы Н) и алгоритм ее формирования по обучающей выборке, всегда найдется такая (непустая) обучающая выборка, что сформированная функция ' (гипотеза Н') явится некорректной (ложной).
В связи с этим гипотезы принято оценивать с точки зрения их "разумности", "рациональности", "интересности". В [6] рациональность ответа на вопрос 1 (см. выше) индуктивного вывода понимается следующим образом. Пусть – имеющиеся истинные утверждения, а – эмпирические данные. Тогда для порождаемой ложной гипотезы , вероятностная мера наблюдения на должна быть мала (например, меньше 0,05).
Можно оценивать гипотезы с точки зрения мощностей подмножеств покрываемых ими элементов обучающей выборки. В ряде исследований для подтверждения или отрицания выдвигаемой гипотезы используются методы автоматического порождения новых элементов обучающей выборки, которые выдаются для классификации эксперту. Решающее правило переопределяется, пока не будет достигнута равновесная ситуация [2].
1.2.1.1. Трудности при разработке экспертных систем
К настоящему времени в теории классических экспертных систем разработана формализованная технология извлечения и представления экспертных знаний. Однако, существует целый ряд трудностей [8]:
-
Построение ЭС не под силу конечному пользователю, не обладающему экспертными знаниями о проблемной области.
-
Необходимость привлечения человека-эксперта в проблемной области, который является носителем знаний. Кроме трудности нахождения эксперта (его может и не быть), необходимо добавить еще и возможные трудности взаимодействия эксперта со специалистом-когнитологом (именно последний, путем диалога с экспертом, оформляет полученные от эксперта знания в выбранном формализме представления знаний).
-
Имеющаяся оболочка ЭС и/или используемая ей модель представления знаний могут плохо подходить для выбранной проблемной области, задачи. Это часто вынуждает разрабатывать программный инструментарий "с нуля".
-
Процесс извлечения знаний из эксперта, их формализация, проверка на непротиворечивость и устранение противоречий очень длителен, несмотря на наличие программных средств автоматизации. До получения первого прототипа системы проходит длительное время (месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающей поставленную задачу с заданной степенью точности и увеличивающей точность решения при дальнейшем пополнении базы знаний, либо достижение заданных характеристик системы невозможно. Это может вести к большим материальным затратам в последнем случае. Другими словами, один из самых первых этапов при разработке любой информационной системы – анализ реализуемости – при разработке ЭС откладывается до момента построения исследовательского прототипа системы.
Перечисленные трудности препятствуют широкому применению теоретических методов и программных оболочек ЭС на практике.
1.2.2. Методы извлечения знаний из таблиц данных
1.2.2.1. Технология извлечения знаний из таблиц данных
В настоящей работе исследуется извлечение знаний из таблиц данных при помощи математических или эмпирических методов обработки данных и моделирования. Фактически, в индустрии обработки данных существуют некоторые формальные схемы обработки данных и анализа результатов. Так, общая схема обработки данных методами математической статистики приведена в [9]:
-
Анализ исследуемой системы или объекта. В ходе анализа определяются: основные цели исследования на содержательном уровне; совокупность единиц (объектов, измерений,..), представляющих предмет исследования; перечень показателей (свойств), характеризующих состояние или поведение каждой из исследуемых единиц; степень формализации и детализации этих показателей при сборе данных; моменты, требующие дополнительной проверки перед составлением детального плана исследований; формализованная постановка задачи (например, на статистическом уровне, т.е. включающая вероятностную модель изучаемого явления и природу статистических выводов, к которым должен или может прийти исследователь в ходе обработки массива данных).
-
Составление плана сбора исходной статистической информации: определение типа выборки – случайная, пропорциональная и т.п.; определение требуемого объема выборки и продолжительности наблюдений; планирование активного эксперимента (если допускается задачей и исследуемым объектом).
-
Сбор данных и их ввод в ЭВМ.
-
Первичная статистическая обработка данных: статистическое описание совокупностей данных с определением пределов варьирования переменных; анализ резко выделяющихся наблюдений, принятие решения об исключении выделяющихся наблюдений или дальнейшем уменьшении учета их вклада с помощью некоторой весовой функции, убывающей по мере роста степени аномальности наблюдений; восстановление значений пропущенных наблюдений; проверка однородности нескольких порций исходных данных (требуется при разделении в пространстве и/или времени моментов получения этих порций данных); проверка статистической независимости последовательных наблюдений; унификация типов переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация распределений.
-
Составление плана вычислительного анализа статистического материала.
-
Вычислительная реализация обработки данных.
-
Осмысление, интерпретация и подведение итогов исследования.
Как при использовании традиционных статистических методов анализа данных, так и при использовании нейронных сетей приведенная схема действий остается без изменений. При этом пункты 5-7 детализируются в зависимости от целей и задач исследования и применяемых методов.
1.2.2.2. Таблица эмпирических данных
Строгие математические методы построения статистически достоверных решающих правил разработаны для случаев, когда о распределениях генеральных совокупностей образов известно абсолютно все: виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т.д.
К сожалению, при решении реальных задач такие условия не встречаются. Обучающая выборка каждого из k образов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных n характеристиками x1,x2,…,xn. Сведений о законах и параметрах распределения генеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки с генеральными совокупностями (неизвестна степень "представительности" выборки). Владелец обучающей выборки имеет туманные представления об априорной вероятности появления различных образов Pi и о матрице стоимости ошибок распознавания Cij. Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы, признаки могут быть измерены в разных шкалах [7], среди признаков могут быть неинформативные, "шумящие" признаки.
Для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез имеет место во всех случаях решения реальных задач, и поэтому деление алгоритмов на "строгие статистические" и "нестрогие эвристические" не имеет смысла [10].
Фактически, выдвижение и проверку новых гипотез для рассматриваемой таблицы данных можно рассматривать часть процесса извлечения знаний.
На применимость и качество работы отдельных методов большое влияние оказывает тип признаков (характеристик) объектов – дискретный (качественный), номинальный (порядковый) или количественный.
Во всех случаях вопрос о том, что является полезной информацией, совсем не очевиден и требует специального рассмотрения.
Представления о характере полезной информации, содержащейся в эмпирических данных, а зачастую и сам характер подобных данных не позволяют использовать для их обработки классические статистические методы. В связи с этим возникли совершенно новые задачи обработки эмпирических данных, а значит, и новые методы решения таких задач.
Это прежде всего задачи регрессионного, авторегрессионного и факторного анализов. В последние годы регрессионный и факторный анализ развивались особенно интенсивно и обогатились рядом новых моделей и методов, например, такими, как модель структурных уравнений регрессии [11], или методы группировки параметров.
Другая группа задач обработки данных – получение типологии изучаемых объектов. С ними связаны распознавание образов, методы автоматической классификации и т.п.