_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 20
Текст из файла (страница 20)
Примером подобной постановки является оценка стоимости жилья в пригородах Бостона /66/. Задача автоматической оценки стоимости жилья решается как задача распознавания интервала его стоимости (очень низкая, низкая, средняя, выше средней, высокая). В качестве признаков используются 13 экологических, социальных, технических показателей: число жилых комнат, доля чернокожего населения в районе, среднее расстояние до основных супермаркетов, качество воздуха, и др. Для обучения использована выборка из 242 объектов, для контроля – выборка из 264 объектов.
Точность распознавания составила 77%, причем практически все ошибки были связаны с отнесением объекта в соседний класс, что естественно в силу искусственного разделения на классы. Количество грубых ошибок (отнесение не в соседний класс) составило менее 1%. Примером логической закономерности класса наиболее дешевого жилья является конъюнкция (6.63724<= «концентрация окислов нитратов/10000000» )&(1.1296<= «среднее расстояние до пяти центров занятости Бостона» <=2.44939) & (0.32<= «Признак В» <=13.692) & (1.73<= «Процент населения низшего статуса»), выполненная на 12 из 16 эталонах первого класса. «Признак В» определяется выражением 1000(Bk - 0.63)^2, где Bk есть доля чернокожего населения.
4.1.2. Оценка состояния предприятий кондитерской промышленности по комплексу финансовых показателей и структуре рабочего персонала
Рассматривалась задача оценивания эффективности работы предприятий. Данная задача решалась экспертами для группы из 89 предприятий на основе детального изучения финансово-экономической деятельности данных предприятий. Основная задача состояла в автоматической оценке по набору признаков остальных предприятий отрасли, используя результаты исследованных предприятий в качестве эталонной выборки. Использовалась трехбальная шкала оценки (три класса).
Для описания предприятий использовались значения по каждому кварталу следующих 9 показателей.
1. Объем продукции (работ, услуг) в действующих (отпускных, договорных ) ценах предприятия.
2. Балансовая прибыль.
3. Среднегодовая стоимость промышленно-производственных основных фондов.
4. Прибыль, остающаяся в распоряжении предприятия (чистая прибыль).
5. Затраты на 1 рубль товарной продукции в действующих ценах, в копейках.
6. Среднесписочная численность промышленно-производственного персонала.
7. Сумма фондов заработной платы и материального поощрения промышленно-производственного персонала.
8. Среднесписочная численность рабочих, человек.
9. Сумма фондов заработной платы и материального поощрения рабочих.
В список наиболее информативных признаков по всем 4 кварталам попал признак «затраты на 1 рубль товарной продукции в действующих ценах», причем его значение за третий квартал оказалось самым информативным относительно всех других. Близкими к наиболее информативным признакам оказались «среднегодовая стоимость промышленно-производственных основных фондов» за третий квартал и «сумма фондов заработной платы и материального поощрения промышленно-производственного персонала» - за четвертый. Наименее важными для оценивания оказались признаки №1, 6, 7 за первый квартал.
Точность распознавания в режиме скользящего контроля составила 75%, причем не было ни одной грубой ошибки, когда успешное предприятие оценивалось отрицательно, и наоборот.
4.1.3. Подтверждение кредитных карточек
Данная информация была взята из открытой базы данных по адресу http://www.isc.uci.edu/~mlearn/MLRepository.html, источник информации - quinlan@cs.su.oz.au.
Описание кредитных карточек основывалось на 15 вещественнозначных и к-значных (которых было две трети от общего количества) признаков, причем содержание каждого признака автором информации не раскрывалось. Для обучения в данной задаче распознавания с двумя классами использовано 342 эталона. Точность распознавания на 348 контрольных объектах составила 86%.
4.1.4. Кластеризация продукции автомобильного рынка
Для анализа современного автомобильного рынка была проведена кластеризация выборки 99 автомобилей с кузовом типа «седан» отечественных и импортных марок. Описание каждой модели включало значения 11 технических признаков, наиболее существенных с позиций покупателя – объем двигателя, масса, ускорение, количество цилиндров, тип коробки передач и другие. Оптимальное число кластеров для данной задачи оказалось равным четырем, причем полученные кластеры имеют естественную интерпретацию.
-
Автомобили ручной сборки - Rolls Royce, Maybach, Bentley.
-
Представительские - автомобили марок BMW, Lexus, Lincoln, Pontiac, S-класс марки Mercedes Benz.
-
Средний класс – Е-класс марки Mercedes Benz, большинство автомобилей Opel, Toyota, Subaru, Nissan, Волга.
-
Малолитражные и дешевые автомобили – ВАЗ, Fiat, Seat, Skoda, Daewoo.
Настоящие результаты кластеризации позволяют прогнозировать восприятие автомобиля на рынке потенциальным покупателем по совокупности приведенных параметров, что может служить ориентиром для производителя по оптимизации отдельных характеристик автомобиля и обоснования его рыночной стоимости.
4.1.5. Оценка надежности клиента при выдаче кредита
Одной из актуальных прикладных задач предсказания в области экономики является задача оценивания целесообразности выдачи банковского кредита частному лицу. Обучающая выборка включала представителей двух классов – класса выгодных клиентов и класса невыгодных клиентов. Выдача каждого кредита характеризуется 26 признаками, такими как размер кредита, размер текущего банковского счета заемщика, назначение кредита, заработная плата заемщика, его семейное положение и другими. Обучающая выборка содержала информацию о 1000 выданных кредитов, 700 из которых были выплачены своевременно (класс №1), а 300 – с той или иной задержкой (класс №2). Точность распознавания в режиме скользящего контроля составила 75%.
Примечание. Автор постановки задачи и данных -
Professor Dr. Hans Hofmann, Institut f"ur Statistik und "Okonometrie Universit"at Hamburg,
FB Wirtschaftswissenschaften, Von-Melle-Park, 5, 2000, Hamburg, 13
4.1.6. Распознавание сортов вина.
Настоящая задача является примером задачи контроля продукции пищевой индустрии. Подобные задачи могут найти широкие применения также при распознавании фальсифицированной продукции. Задача распознавания сортов вин по химическому анализу относится к хорошо поставленным задачам с легко отделимыми классами. Реальную ценность могут иметь результаты, в которых процент правильно распознанных объектов приближается к 100%. В данном примере исследуется выборка, объектами которой являются результаты химического анализа, выраженные в 13 признаках, таких как содержание алкоголя, яблочной кислоты, магния, цветовой оттенок и другие. Выборка разбита на 3 класса, соответствующих 3-м сортам вина, изготовленным из винограда, выросшего в одном и том же регионе Италии. Точность распознавания различными алгоритмами в режиме скользящего контроля составила 87.6-97.2%% правильных ответов, причем наилучшую точность показал метод «линейная машина».
Примечание. Автор постановки задачи и данных -
Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.
4.2. Приложения в области медицины и здравохранения
4.2.1. Кластеризация возрастных распределений населения
Приведем результаты обработки некоторых демографических данных по материалам Всемирной организации здравоохранения.
Исходную информацию составили возрастные распределения населения 46 стран различных континентов (кроме Африки). Каждое распределение кодировалось строкой значений 10 числовых признаков. Признаки определяли долю населения стран из определенных возрастных групп. Основная задача состояла в автоматической классификации стран по их возрастным распределениям.
Для анализа данных использовался пакет TAXON (алгоритм Форель и методы иерархической группировки при различных метриках с последующим построением коллективного решения) /79/. Было построено коллективное решение задачи кластерного анализа, состоящее из шести кластеров. В первый, наиболее представительный кластер (21 объект) попало большинство европейских стран, США и Австралия, имеющие достаточно ровные графики возрастных распределений на интервале от 5—14 до 55—64 лет. Во второй кластер зачислены некоторые островные государства (Ирландия, Куба и т. д.) и Израиль. Третий кластер составили в целом крупные развивающиеся страны (Таиланд, Филиппины, Венесуэла и т. д.). Для их графических представлений характерен резкий пик в юношеском возрасте. Сингапур и Гонконг образовали четвертый таксон. В отдельные таксоны выделились Япония и Норвегия. Для последней характерен весьма существенный процент населения в пожилом возрасте.
Визуальное сопоставление графиков возрастных распределений, соответствующих одному таксону, показало отчетливое качественное их совпадение. Результаты хорошо согласуются с социально-экономическими и культурными уровнями различных стран, а также особенностями их местонахождения и развития /18, 79/.
4.2.2. Прогноз результатов лечения остеогенной саркомы
Остеогенная саркома является тяжелым онкологическим заболеванием костей, часто возникающее в очень молодом возрасте. Современные методы лечения остеогенной саркомы включают в себя курс медикаментозного химиотерапевтического лечения с использованием препаратов, токсичных для опухолевых тканей. После курса химиотерапевтического лечения обычно проводится хирургическая операция по удалению из организма больного остатков опухоли.
Прогноз степени деструкции опухоли. Для успешного проведения хирургической операции при ее планировании необходима информация о степени разрушения опухоли в результате химиотерапии. Однако точно оценить степень разрушения можно только с помощью гистологического анализа уже удаленных тканей. В связи с этим в Онкологическом центре РАМН была поставлена задача разработать метод оценки степени разрушения опухоли по совокупности доступных на предоперационном этапе косвенных показателей (клинических, рентгенологических, лабораторных и др.). При разработке метода использовалась информация, содержащаяся в историях болезней 244 пациентов. Была использована двухуровневая шкала оценок степени деструкции ( высокая и низкая степени).
Использование методов распознавания позволило создать прогностический алгоритм, общая точность которого составила 79% правильных прогнозов. При этом точными оказались 85% прогнозов, предсказывающих низкую степень деструкции, и 68% прогнозов, предсказывающих высокую степень деструкции.
Прогноз выживаемости по совокупности иммунологических параметров. Важнейшим фактором, определяющим защитные силы организма и влияющим на развитие заболевания, является состояние иммунной системы больного. Исследование взаимосвязи между иммунным статусом и исходом заболевания может сыграть важную роль для выработки эффективных методов лечения. В связи с этим была поставлена задача исследования возможности использования совокупности иммунологических показателей для прогноза исхода остеогенной саркомы. Исследования проводились по информации, содержащейся в историях болезней 80 пациентов, проходивших курс лечения в Онкологическом центре РАМН и не имевших метастаз к окончанию курса. Были сформированы две группы пациентов. Первая из групп включала 55 больных, у которых метастазы появились в течение одного года после окончания курса лечения. Вторая группа соответственно включала 25 больных с благоприятным исходом.
Использование методов распознавания позволило создать прогностический алгоритм с общей точностью прогноза исхода 76%. Точность прогноза оценивалась с использованием метода скользящего контроля /78/.
4.2.3. Прогноз динамики депрессивных синдромов.
Острые периоды сотрясения головного мозга, являющегося следствием черепно-мозговых травм, нередко сопровождаются депрессивными состояниями больных. Правильная оценка глубины депрессивного расстройства и тесно связанной с ней динамики заболевания в его начальном периоде существенна для выбора оптимального курс лечения. Вместе с тем, по направлению динамики могут быть достаточно четко выделены группа больных с явной положительной динамикой и группа больных, у которых не наблюдается сколь либо выраженных улучшений. Другой важной характеристикой диагностики заболевания является необходимость коллективного учета разнообразных факторов, описывающих конституциональные биологические и психологические особенности пациентов. Перечисленные обстоятельства указали на целесообразность использования для решения задачи прогноза динамики депрессивных синдромов методов распознавания.