_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf), страница 22
Описание файла
PDF-файл из архива "_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 22 страницы из PDF
Описание объекта S i задается[ Z1 (ti l ),, Z1 (ti ), , Z k (ti l ),, Z k (ti )] ,гдеy ( S i ) считается равной 1 если Z (t i 1) Z (t i ) , иti T i ,i 1,2,...T l 1 .y ( S i ) считается равной 2если Z (t i 1) Z (t i ) . Данная выборка может рассматриваться в качестве обучающейвыборкидляпостроенияраспознающегоалгоритма,относящеговектор106[ Z1 (t l ),, Z1 (t ), , Z k (t l ),, Z k (t )] при произвольном моменте времени t к классу K 1 ,что соответствует прогнозу роста Z к моменту времени t 1 , или к классу K 2 , чтосоответствует прогнозу снижения Z к моменту времени t 1 .Естественным образом данная постановка обобщается на случай прогнозированиястепени увеличения (уменьшения) прогнозируемой величины как задача распознавания счислом классов большим двух.107Глава 4.
Практические примененияВнастоящейглавеприводятсяпримерыпрактическогопримененияматематических методов теории распознавания и интеллектуального анализа данных вразличных предметных областях. Рассматриваемые прикладные задачи были исследованыс различной степенью глубины. Многие работы выполнялись в рамках долгосрочныхдоговоров с соответствующими организациями и при их активном участии. В данныхслучаях были получены результаты, максимально адекватные тому объему знаний,который в принципе доступен к извлечению из выборок прецедентов. В основном, данныерезультаты практических применений опубликованы в научной печати и доложены наконференциях. Значительная часть данных была взята из открытых источников(публикации, Интернет) или была предоставлена авторам коллегами.
Полученные вданныхслучаяхрезультаты«разовыхрасчетов»являются,какправило,«поверхностными», точность прогноза для ряда задач была невысокой. Как правило,подобные результаты можно существенно улучшить, уточнить и доработать при болеедетальном ознакомлении с предметной областью или (тем более) совместном решенииданных задач с их постановщиками. Тем не менее, авторы посчитали целесообразнымпривести результаты и подобных «микроисследований» с иллюстративной цельюмаксимального охвата области практических применений и демонстрации возможностейобработки «сырого» материала.Следует отметить очевидную истину: точность распознавания и прогноза,выявленные закономерности непосредственно зависят от практической постановкизадачи,качестваиколичестваимеющихсяданных.Еслинесуществуетвдействительности детерминированной или статистической связи между имеющейсясистемой признаков и распознаваемым свойством (параметром, характеристикой,объектом, ситуацией, и т.п.), то наивно рассчитывать найти то, чего не существует.
Еслиобучающие данные не представительны (т.е. к распознаванию могут предъявляться взначительном количестве объекты, существенно отличающиеся от наблюдаемых ранее),то более правильным ответом в данных случаях будут отказы от распознавания в виде«распознаваемый объект является незнакомым наблюдением» чем необоснованная ихклассификация.4.1. Приложения в области бизнеса, экономики и финансовДля данной области приложений характерно быстрое появление новых проблем,которые отсутствовали в недалеком прошлом, но решение которых может бытьнепосредственно связано с достижением существенного финансового или экономического108эффекта.
Данные практические задачи в силу своей новизны, как правило, еще не имеютточных математических моделей для их решения. К числу подобных примеров можноотнести задачу прогноза курса акций предприятий, оценки надежности клиента прикредитовании, анализа продаж товаров в супермаркетах, и многие другие. Приведемпримеры данных приложений.4.1.1. Оценка стоимости квартир.Задача состоит в автоматической оценке стоимости квартир по ее внутренним ивнешнимхарактеристикам(жилаяплощадь,строительныйматериалдома,местонахождение, этаж, удаленность от станции метро, и др.). Применение методовоценки стоимости жилья по имеющимся выборкам прецедентам (совокупностьрасширенных описаний некоторого множества квартир плюс цена их продаж) позволяетпроводитьбеспристрастную,независимуюиточнуюоценкустоимости.Подрасширенным описанием квартиры понимается весь стандартный комплекс параметров,которые обычно являются ценообразующими.Примером подобной постановки является оценка стоимости жилья в пригородахБостона /66/.
Задача автоматической оценки стоимости жилья решается как задачараспознавания интервала его стоимости (очень низкая, низкая, средняя, выше средней,высокая).Вкачествепризнаковиспользуются13экологических,социальных,технических показателей: число жилых комнат, доля чернокожего населения в районе,среднее расстояние до основных супермаркетов, качество воздуха, и др. Для обученияиспользована выборка из 242 объектов, для контроля – выборка из 264 объектов.Точность распознавания составила 77%, причем практически все ошибки былисвязаны с отнесением объекта в соседний класс, что естественно в силу искусственногоразделения на классы. Количество грубых ошибок (отнесение не в соседний класс)составило менее 1%.
Примером логической закономерности класса наиболее дешевогожилья является конъюнкция (6.63724<= «концентрация окислов нитратов/10000000»)&(1.1296<= «среднее расстояние до пяти центров занятости Бостона» <=2.44939) &(0.32<= «Признак В» <=13.692) & (1.73<= «Процент населения низшего статуса»),выполненная на 12 из 16 эталонах первого класса. «Признак В» определяется выражением1000(Bk - 0.63)^2, где Bk есть доля чернокожего населения.4.1.2.
Оценка состояния предприятий кондитерской промышленности по комплексуфинансовых показателей и структуре рабочего персонала109Рассматривалась задача оценивания эффективности работы предприятий. Даннаязадача решалась экспертами для группы из 89 предприятий на основе детального изученияфинансово-экономической деятельности данных предприятий. Основная задача состояла вавтоматической оценке по набору признаков остальных предприятий отрасли, используярезультаты исследованных предприятий в качестве эталонной выборки. Использоваласьтрехбальная шкала оценки (три класса).Для описания предприятий использовались значения по каждому кварталу следующих 9показателей.1.
Объем продукции (работ, услуг) в действующих (отпускных, договорных ) ценахпредприятия.2. Балансовая прибыль.3. Среднегодовая стоимость промышленно-производственных основных фондов.4. Прибыль, остающаяся в распоряжении предприятия (чистая прибыль).5. Затраты на 1 рубль товарной продукции в действующих ценах, в копейках.6. Среднесписочная численность промышленно-производственного персонала.7.
Сумма фондов заработной платы и материального поощрения промышленнопроизводственного персонала.8. Среднесписочная численность рабочих, человек.9. Сумма фондов заработной платы и материального поощрения рабочих.В список наиболее информативных признаков по всем 4 кварталам попал признак«затраты на 1 рубль товарной продукции в действующих ценах», причем его значение затретий квартал оказалось самым информативным относительно всех других. Близкими кнаиболее информативным признакам оказались «среднегодовая стоимость промышленнопроизводственных основных фондов» за третий квартал и «сумма фондов заработнойплаты и материального поощрения промышленно-производственного персонала» - зачетвертый.
Наименее важными для оценивания оказались признаки №1, 6, 7 за первыйквартал.Точность распознавания в режиме скользящего контроля составила 75%, причем небыло ни одной грубой ошибки, когда успешное предприятие оценивалось отрицательно, инаоборот.4.1.3. Подтверждение кредитных карточекДаннаяинформациябылавзятаизhttp://www.isc.uci.edu/~mlearn/MLRepository.html,quinlan@cs.su.oz.au.открытойбазыисточникданныхпоинформацииадресу-110Описание кредитных карточек основывалось на 15 вещественнозначных и кзначных (которых было две трети от общего количества) признаков, причем содержаниекаждого признака автором информации не раскрывалось. Для обучения в данной задачераспознавания с двумя классами использовано 342 эталона. Точность распознавания на348 контрольных объектах составила 86%.4.1.4.
Кластеризация продукции автомобильного рынкаДля анализа современного автомобильного рынка была проведена кластеризациявыборки 99 автомобилей с кузовом типа «седан» отечественных и импортных марок.Описание каждой модели включало значения 11 технических признаков, наиболеесущественных с позиций покупателя – объем двигателя, масса, ускорение, количествоцилиндров, тип коробки передач и другие. Оптимальное число кластеров для даннойзадачи оказалось равным четырем, причем полученные кластеры имеют естественнуюинтерпретацию.Автомобили ручной сборки - Rolls Royce, Maybach, Bentley.Представительские - автомобили марок BMW, Lexus, Lincoln, Pontiac, S-класс маркиMercedes Benz.Средний класс – Е-класс марки Mercedes Benz, большинство автомобилей Opel,Toyota, Subaru, Nissan, Волга.Малолитражные и дешевые автомобили – ВАЗ, Fiat, Seat, Skoda, Daewoo.Настоящие результаты кластеризации позволяют прогнозировать восприятие автомобиляна рынке потенциальным покупателем по совокупности приведенных параметров, чтоможет служить ориентиром для производителя по оптимизации отдельных характеристикавтомобиля и обоснования его рыночной стоимости.4.1.5.
Оценка надежности клиента при выдаче кредитаОдной из актуальных прикладных задач предсказания в области экономикиявляется задача оценивания целесообразности выдачи банковского кредита частномулицу. Обучающая выборка включала представителей двух классов – класса выгодныхклиентов и класса невыгодных клиентов. Выдача каждого кредита характеризуется 26признаками, такими как размер кредита, размер текущего банковского счета заемщика,назначение кредита, заработная плата заемщика, его семейное положение и другими.Обучающая выборка содержала информацию о 1000 выданных кредитов, 700 из которыхбыли выплачены своевременно (класс №1), а 300 – с той или иной задержкой (класс №2).Точность распознавания в режиме скользящего контроля составила 75%.Примечание. Автор постановки задачи и данных -111Professor Dr.
Hans Hofmann, Institut f"ur Statistik und "Okonometrie Universit"at Hamburg,FB Wirtschaftswissenschaften, Von-Melle-Park, 5, 2000, Hamburg, 134.1.6. Распознавание сортов вина.Настоящая задача является примером задачи контроля продукции пищевойиндустрии. Подобные задачи могут найти широкие применения также при распознаваниифальсифицированной продукции.