Резюме (1137068)
Текст из файла
На правах рукописиМасютин Алексей АлександровичРАНДОМИЗИРОВАННЫЕ АЛГОРИТМЫ НА ОСНОВЕИНТЕРВАЛЬНЫХ УЗОРНЫХ СТРУКТУР ДЛЯ ЗАДАЧКЛАССИФИКАЦИИ И РЕГРЕССИИ В ЗАДАЧАХКРЕДИТНОГО РИСК-МЕНЕДЖМЕНТАРЕЗЮМЕдиссертации на соискание ученой степеникандидата компьютерных наук НИУ ВШЭМосква –– 2018Диссертационная работа выполнена в Национальном исследовательскомуниверситете «Высшая школа экономики».Научный руководитель:Сергей Олегович Кузнецов, д.ф.-м.н.,профессор, руководитель департамента анализаданных и искусственного интеллекта ФКН ВШЭ2ТЕМА ДИССЕРТАЦИИВ диссертации предложены алгоритмы прогноза вероятностидефолта и уровня потерь в случае дефолта, основанные на методаханализа формальных понятий.
Предложенные алгоритмы с однойстороны превосходят по метрике качества работы используемые вбанковской сфере стандартные модели, а с другой стороны сохраняютсвойство интерпретируемости.Актуальность темы работы. Развитие информационныхтехнологий создает гораздо более жесткую конкурентную среду длябанков и кредитных организаций.
Например, с января 2017 года двекрупнейшие российские телекоммуникационные компании началипредоставлять кредиты своим клиентам, хотя они никогда прежде неразрабатывали данное бизнес-направление1. Предоставление таких услугсо стороны нефинансовых компаний стало возможным благодарявнедрению современной ИТ-инфраструктуры для хранения большогообъема данных о клиентах и использованию методов математическогомоделированиядляоценкикредитоспособностиклиентов.Международный лидер в сфере стратегических консалтинговых услугMcKinsey публикует исследования, согласно которым к 2025 годумировая банковская индустрия претерпит значительные изменения.Одной из основных причин трансформации является цифровизациябанковских услуг, быстро растущий объем данных о клиентах и ихоперациях, появление новых типов рисков, связанных с использованиеммашинного обучения при принятии решений.Математическое моделирование в банковском секторе находитодно из основных приложений в области управления рисками.Необходимым условием эффективного управления рисками являетсяспособность адекватно оценивать вероятность и величину риска.
Наданный момент, задачи оценки риска решаются широким спектромстатистических инструментов, таких как скоринговые карты,рейтинговые модели, модели оценки уровня потерь в случае дефолта.В то же время одной из основных причин многочисленных отзывовлицензий, среди прочего, является низкое качество кредитного1http://www.rbc.ru/finances/11/01/2017/587500529a794767fa723fa8, имеются ввиду две телеком-компании: Билайн и МТС.3портфеля; неадекватные оценки вероятности дефолта и/или величиныпотерь, в случае дефолта 2 (например, Пробизнесбанк, Татфондбанк вРоссии).
Так, в пресс-релизах Центрального Банка России, можно найтиследующие комментарии: «кредитная организация неадекватнооценивала риски при неудовлетворительном качестве активов», «врезультате расчета ожидаемых потерь, учитывая принятые риски,кредитная организация полностью потеряла свой капитал» и т. д.В связи с увеличением объема данных о клиентах стандартныеметоды классификации и регрессии показывают меньшую точность посравнению с более сложными алгоритмами, такими как градиентныйбустинг и машины опорных векторов. Тем не менее управление рискамитребует свойства интерпретируемости прогнозов, полученных на основемодели, что в случае сложных алгоритмов, как правило, невозможно.Кроме того, существуют определенные предписания Банка России,которые регулируют процесс оценки кредитного риска на основематематических моделей, и банки проходят детальные проверкииспользования моделей для оценки рисков, причем значительная частьпроверок проводится с целью подтверждения стабильности работымодели и валидации ее бизнес-логики.Данная работа предлагает алгоритмы решения задачи оценки риска,которые обладают свойством интерпретируемости, аналогичнойассоциативным правилам, при этом превосходят по точности обычныедля банковской сферы методы классификации и регрессии, такие какскоринговые карты и деревья решенийЭто достигается с помощью использования методов анализаформальных понятий и интервальных узорных структур.
Было введенонесколько новых определений и модификаций для существующихалгоритмов, с тем чтобы можно было осуществлять прогноз непрерывнораспределенной целевой переменной на основе узорных структур иобрабатывать наборы данных со значительным числом наблюдений.Объект исследования - интерпретируемые математическиемодели для оценки вероятности дефолта и оценки уровня потерь вслучае дефолта.2http://www.cbr.ru/press/PR/?file=12082015_085127ik2015-08-12t08_46_23.htm4Цель работы - разработка методов оценки кредитоспособности иоценки уровня потерь в случае дефолта, которые обеспечивают болеевысокую точность по сравнению со скоринговыми картами и деревьямипринятия решений при сохранении хорошей интерпретируемости.
Длядостижения данной цели были решены следующие задачи:1. Разработана процедура рандомизированного поиска описанийна основе анализа формальных понятий, позволяющих решатьзадачу кредитного скоринга на основе признакового описанияи сохраняющая свойства интерпретируемости при принятиирешений.2. Предложена модификация интервальных узорных структур сцелью их применения к задачам прогноза уровня потерь длянепрерывно распределенной целевой переменной.3. Проведенывычислительныеэкспериментыкакнавнутрибанковских, так и на открытых данных, которыепозволилинайтиоптимальныегиперпараметрыпредложенных алгоритмов и произвести сравнение состандартнымииспользуемымивбанковскойсфереалгоритмами.ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫНаучная новизна работы представлена двумя аспектами:1. Разработан метод классификации «по запросу», которыйпредставляетсобойрандомизированнуюпроцедурупредсказания дефолта заемщика для наборов данных споказателями финансового состояния клиента.
Методпозволяет получать хорошо интерпретируемые результаты взадачах кредитного скоринга;2. Расширены средства анализа формальных понятий длярешения задачи восстановления регрессии (в случае, когдацелевая имеет непрерывное распределение). Разработаналгоритм регрессии «по запросу».Диссертация предлагает алгоритмы анализа данных, которыеимеют точность, превосходящую стандартные алгоритмы, широкоиспользуемые в банковской сфере (такие как логистическая регрессия,деревья решений и скоринговые карты), сохраняя при этом свойство5интерпретируемости в том смысле, что лицо, принимающее решение,получает набор правил, релевантных для оценки кредитоспособностизаемщика. Обоснование того, что методы АФП подходят для решениязадачкредитногоскорингаприсохранениисвойстваинтерпретируемости, приводится в основном тексте диссертации.
Приэтом новизна предлагаемых средств АФП заключается в следующем.Во-первых, АФП применяется к проблеме классификации начисловых данных, причем этап построения решетки понятийпропускается (в чем и состоит концепция классификации по запросуили «ленивой» классификации). Это позволяет работать с наборамиданных с произвольным числом кредитных историй, что критическиважно для банков, так как массивы исторических данных достаточновелики. Кроме того, каждый заемщик с неизвестной меткой классаполучает прогноз на индивидуальной основе с помощью набора правил,релевантных именно ему.Во-вторых, вводится модификация методов АФП на основеинтервальных узорных структур, что позволяет решить задачурегрессии, когда целевая переменная распределена непрерывно.Основные положения, выносимые на защиту:1.
Методклассификация«позапросу»(Query-ВasedClassification),которыйпредставляетсобойрандомизированную процедуру предсказания неизвестнойметки класса для наборов данных с большим числомнаблюдений на основе интервальных узорных структур.2. Метод регрессия «по запросу» (Query-Based Regression)который адаптирует инструментарий интервальные узорныхструктур для задачи восстановления регрессии, т.е. когдацелевая переменная распределена непрерывно.3. Вычислительные эксперименты, которые представляютвалидацию предложенных методов, включающие сравнение салгоритмами-аналогами как на внутрибанковских, так и наоткрытых данных.Результаты получены диссертантом лично. В работах по темедиссертации диссертантом предложены ключевые научные идеи,реализованы и проведены эксперименты, написаны статьи. Вклад6остальных соавторов заключается в рецензировании программного кодаэкспериментов, технической помощи в постановке экспериментов,обсуждениях полученных результатов, правках текста статей, а состороны научного руководителя, дополнительно в постановке решаемойзадачи и общем руководстве исследованиями.Практическая значимость подтверждена экспериментами пооценке качества работы различных алгоритмов для задач кредитногоскоринга и прогнозирования уровня потерь на реальныхвнутрибанковских данных, а также на открытых данных.
Предлагаемыеметоды реализованы в виде прототипа программного кода.Предложенные методы и алгоритмы были применены в рамкахпилотного проекта на наборах данных одного из топ-10 российскихбанков, а результаты расчетов, сравнительный анализ точности ибенчмаркинг приведены в диссертации.Надежность полученных результатов подтверждается строгостьюприменения математических моделей и методов, а также путемэкспериментов, сравнивающих результаты применения предлагаемых истандартных для предметной области методов.ПУБЛИКАЦИИ И АПРОБАЦИЯ РАБОТЫПубликации повышенного уровня1. Masyutin A., Kashnitsky Y. Query-Based Versus Tree-BasedClassification: Application to Banking Data // Lecture Notes inComputer Science (including subseries Lecture Notes in ArtificialIntelligence and Lecture Notes in Bioinformatics), 2017, 10352LNAI, pp.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.