_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 19
Текст из файла (страница 19)
в которых берутся сумма значений дискретной производной i слева (справа) от рассматриваемой точки k с экспоненциально убывающими весами при удалении от точки k так, чтобы сумма этих весов с обеих сторон была равна 1. Назовем функционалом качества разбиения на k кластеров величину относительного изменения взвешенных производных и будем выбирать то разбиение, для которого эта величина максимальна.
3.14. Визуализация многомерных данных
При решении задач распознавания, классификации и анализа данных важное значение имеет наличие средств визуализации многомерных данных, позволяющих наглядно получать представление о конфигурации классов, кластеров и расположении отдельных объектов. Данные средства необходимы прежде всего в случае задач с большим числом признаков, когда отдельные проекции в 2-3-х мерных подпространствах признаков содержат мало информации относительно -мерных описаний, или в случаях бинарных и к-значных признаков. Данная задача рассматривалась в следующей широко известной постановке /19/.
Пусть в - мерном евклидовом пространстве задан набор из
элементов
Требуется найти отображение этого набора точек на плоскость
так, чтобы метрические соотношения между образами точек на плоскости максимально соответствовали бы метрическим соотношениям между ними в исходном
-мерном признаковом пространстве: «близкие» («далекие»)
- мерные точки, остались бы «близкими» («далекими») на плоскости. Данную искомую плоскость будем называть плоскостью обобщенных признаков (параметров).
Пусть – отображение элемента
на
,
– расстояние между элементами
,
в
, а
– расстояние между
,
в
. Будем искать такое отображение, для которого сумма различий расстояний между точками будет минимальна
Так как функция содержит только расстояния между точками, она инвариантна к жесткому передвижению всей конфигурации.
Минимизация функции проводится с помощью стандартной процедуры градиентного спуска
где
- конфигурация точек на плоскости,
- номер итерации,
- значение градиента функции
,
- шаг спуска. В качестве начальной конфигурации
берется проекция точек
на некоторую плоскость. Шаг спуска
меняется согласно методу «удвоения»: шаг предыдущей итерации или последовательно умножается либо делится на 2 до тех пор, пока наблюдается уменьшение функции
. Градиент вычисляется по формуле:
При больших затраты машинного времени могут быть практически неприемлемы, при этом может не существовать адекватного отображения исходной конфигурации на плоскость, поэтому количество исходных элементов случайным образом уменьшается до некоторого числа
, где
- подобранная экспериментально константа. На рис. 28, 29 приведены проекция некоторой обучающей выборки с k – значными признаками и ее визуализация на плоскости обобщенных признаков.
Рис. 28. Проекция данных выборки breast_learn на плоскость признаков №1, 6. | Рис. 29. Проекция данных выборки breast_learn на плоскость обобщенных признаков. |
3.15. Использование методов распознавания при прогнозировании временных рядов.
В различных областях практической деятельности нередко возникает задача предсказания значения переменной в момент времени
по величине этой переменной в предшествующие моменты времени
. Данная задача является частным случаем более общей задачи предсказания значения некоторой переменной
в момент времени
по значениям переменных (k признаков) из множества
в предшествующие моменты времени
. Причем множество
может содержать саму переменную
. Для решения данной задачи разработан достаточно широкий спектр моделей и методов, включая модели выделения основных трендов, скользящего среднего, авторегрессий и др. Однако стремление повысить точность необходимого во многих областях краткосрочного прогноза заставляет разрабатывать новые математические средства решения этой задачи. Одним из возможных подходов здесь также является применение распознавание образов.
Для многих практических задач точный прогноз величины невозможен, однако цели прогнозирования оказались бы частично достигнутыми, если бы удалось указать направление изменения
между моментами
и
. В качестве примера можно указать задачу прогноза динамики курсовой стоимости акций на фондовом рынке. Выбор направления изменения фактически является задачей отнесения ситуации, сложившейся к моменту времени
, к двум классам:
- последующий рост величины
в момент времени
,
- последующее снижение величины
в момент времени
. В качестве прогностических переменных (признаков) в данном случае выступают величины переменных из множества
в моменты
, где
- длина временного интервала, используемого для прогноза. Иными словами ситуация может быть описана с помощью вектора-описания
.
Имея в своем распоряжении результаты наблюдений за изменениями переменных на некотором временном отрезке , где
, мы можем построить выборку прецедентов
,
- полное число вхождений временных отрезков длины
в отрезок
. Описание объекта
задается вектором
, где
. Величина
считается равной 1 если
, и
считается равной 2 если
. Данная выборка может рассматриваться в качестве обучающей выборки для построения распознающего алгоритма, относящего вектор
при произвольном моменте времени
к классу
, что соответствует прогнозу роста
к моменту времени
, или к классу
, что соответствует прогнозу снижения
к моменту времени
.
Естественным образом данная постановка обобщается на случай прогнозирования степени увеличения (уменьшения) прогнозируемой величины как задача распознавания с числом классов большим двух.
Глава 4. Практические применения
В настоящей главе приводятся примеры практического применения математических методов теории распознавания и интеллектуального анализа данных в различных предметных областях. Рассматриваемые прикладные задачи были исследованы с различной степенью глубины. Многие работы выполнялись в рамках долгосрочных договоров с соответствующими организациями и при их активном участии. В данных случаях были получены результаты, максимально адекватные тому объему знаний, который в принципе доступен к извлечению из выборок прецедентов. В основном, данные результаты практических применений опубликованы в научной печати и доложены на конференциях. Значительная часть данных была взята из открытых источников (публикации, Интернет) или была предоставлена авторам коллегами. Полученные в данных случаях результаты «разовых расчетов» являются, как правило, «поверхностными», точность прогноза для ряда задач была невысокой. Как правило, подобные результаты можно существенно улучшить, уточнить и доработать при более детальном ознакомлении с предметной областью или (тем более) совместном решении данных задач с их постановщиками. Тем не менее, авторы посчитали целесообразным привести результаты и подобных «микроисследований» с иллюстративной целью максимального охвата области практических применений и демонстрации возможностей обработки «сырого» материала.
Следует отметить очевидную истину: точность распознавания и прогноза, выявленные закономерности непосредственно зависят от практической постановки задачи, качества и количества имеющихся данных. Если не существует в действительности детерминированной или статистической связи между имеющейся системой признаков и распознаваемым свойством (параметром, характеристикой, объектом, ситуацией, и т.п.), то наивно рассчитывать найти то, чего не существует. Если обучающие данные не представительны (т.е. к распознаванию могут предъявляться в значительном количестве объекты, существенно отличающиеся от наблюдаемых ранее), то более правильным ответом в данных случаях будут отказы от распознавания в виде «распознаваемый объект является незнакомым наблюдением» чем необоснованная их классификация.
4.1. Приложения в области бизнеса, экономики и финансов
Для данной области приложений характерно быстрое появление новых проблем, которые отсутствовали в недалеком прошлом, но решение которых может быть непосредственно связано с достижением существенного финансового или экономического эффекта. Данные практические задачи в силу своей новизны, как правило, еще не имеют точных математических моделей для их решения. К числу подобных примеров можно отнести задачу прогноза курса акций предприятий, оценки надежности клиента при кредитовании, анализа продаж товаров в супермаркетах, и многие другие. Приведем примеры данных приложений.
4.1.1. Оценка стоимости квартир.
Задача состоит в автоматической оценке стоимости квартир по ее внутренним и внешним характеристикам (жилая площадь, строительный материал дома, местонахождение, этаж, удаленность от станции метро, и др.). Применение методов оценки стоимости жилья по имеющимся выборкам прецедентам (совокупность расширенных описаний некоторого множества квартир плюс цена их продаж) позволяет проводить беспристрастную, независимую и точную оценку стоимости. Под расширенным описанием квартиры понимается весь стандартный комплекс параметров, которые обычно являются ценообразующими.