Резюме (Рандомизированные алгоритмы на основе интервальных узорных структур)
Описание файла
Файл "Резюме" внутри архива находится в папке "Рандомизированные алгоритмы на основе интервальных узорных структур". PDF-файл из архива "Рандомизированные алгоритмы на основе интервальных узорных структур", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиМасютин Алексей АлександровичРАНДОМИЗИРОВАННЫЕ АЛГОРИТМЫ НА ОСНОВЕИНТЕРВАЛЬНЫХ УЗОРНЫХ СТРУКТУР ДЛЯ ЗАДАЧКЛАССИФИКАЦИИ И РЕГРЕССИИ В ЗАДАЧАХКРЕДИТНОГО РИСК-МЕНЕДЖМЕНТАРЕЗЮМЕдиссертации на соискание ученой степеникандидата компьютерных наук НИУ ВШЭМосква –– 2018Диссертационная работа выполнена в Национальном исследовательскомуниверситете «Высшая школа экономики».Научный руководитель:Сергей Олегович Кузнецов, д.ф.-м.н.,профессор, руководитель департамента анализаданных и искусственного интеллекта ФКН ВШЭ2ТЕМА ДИССЕРТАЦИИВ диссертации предложены алгоритмы прогноза вероятностидефолта и уровня потерь в случае дефолта, основанные на методаханализа формальных понятий.
Предложенные алгоритмы с однойстороны превосходят по метрике качества работы используемые вбанковской сфере стандартные модели, а с другой стороны сохраняютсвойство интерпретируемости.Актуальность темы работы. Развитие информационныхтехнологий создает гораздо более жесткую конкурентную среду длябанков и кредитных организаций.
Например, с января 2017 года двекрупнейшие российские телекоммуникационные компании началипредоставлять кредиты своим клиентам, хотя они никогда прежде неразрабатывали данное бизнес-направление1. Предоставление таких услугсо стороны нефинансовых компаний стало возможным благодарявнедрению современной ИТ-инфраструктуры для хранения большогообъема данных о клиентах и использованию методов математическогомоделированиядляоценкикредитоспособностиклиентов.Международный лидер в сфере стратегических консалтинговых услугMcKinsey публикует исследования, согласно которым к 2025 годумировая банковская индустрия претерпит значительные изменения.Одной из основных причин трансформации является цифровизациябанковских услуг, быстро растущий объем данных о клиентах и ихоперациях, появление новых типов рисков, связанных с использованиеммашинного обучения при принятии решений.Математическое моделирование в банковском секторе находитодно из основных приложений в области управления рисками.Необходимым условием эффективного управления рисками являетсяспособность адекватно оценивать вероятность и величину риска.
Наданный момент, задачи оценки риска решаются широким спектромстатистических инструментов, таких как скоринговые карты,рейтинговые модели, модели оценки уровня потерь в случае дефолта.В то же время одной из основных причин многочисленных отзывовлицензий, среди прочего, является низкое качество кредитного1http://www.rbc.ru/finances/11/01/2017/587500529a794767fa723fa8, имеются ввиду две телеком-компании: Билайн и МТС.3портфеля; неадекватные оценки вероятности дефолта и/или величиныпотерь, в случае дефолта 2 (например, Пробизнесбанк, Татфондбанк вРоссии).
Так, в пресс-релизах Центрального Банка России, можно найтиследующие комментарии: «кредитная организация неадекватнооценивала риски при неудовлетворительном качестве активов», «врезультате расчета ожидаемых потерь, учитывая принятые риски,кредитная организация полностью потеряла свой капитал» и т. д.В связи с увеличением объема данных о клиентах стандартныеметоды классификации и регрессии показывают меньшую точность посравнению с более сложными алгоритмами, такими как градиентныйбустинг и машины опорных векторов. Тем не менее управление рискамитребует свойства интерпретируемости прогнозов, полученных на основемодели, что в случае сложных алгоритмов, как правило, невозможно.Кроме того, существуют определенные предписания Банка России,которые регулируют процесс оценки кредитного риска на основематематических моделей, и банки проходят детальные проверкииспользования моделей для оценки рисков, причем значительная частьпроверок проводится с целью подтверждения стабильности работымодели и валидации ее бизнес-логики.Данная работа предлагает алгоритмы решения задачи оценки риска,которые обладают свойством интерпретируемости, аналогичнойассоциативным правилам, при этом превосходят по точности обычныедля банковской сферы методы классификации и регрессии, такие какскоринговые карты и деревья решенийЭто достигается с помощью использования методов анализаформальных понятий и интервальных узорных структур.
Было введенонесколько новых определений и модификаций для существующихалгоритмов, с тем чтобы можно было осуществлять прогноз непрерывнораспределенной целевой переменной на основе узорных структур иобрабатывать наборы данных со значительным числом наблюдений.Объект исследования - интерпретируемые математическиемодели для оценки вероятности дефолта и оценки уровня потерь вслучае дефолта.2http://www.cbr.ru/press/PR/?file=12082015_085127ik2015-08-12t08_46_23.htm4Цель работы - разработка методов оценки кредитоспособности иоценки уровня потерь в случае дефолта, которые обеспечивают болеевысокую точность по сравнению со скоринговыми картами и деревьямипринятия решений при сохранении хорошей интерпретируемости.
Длядостижения данной цели были решены следующие задачи:1. Разработана процедура рандомизированного поиска описанийна основе анализа формальных понятий, позволяющих решатьзадачу кредитного скоринга на основе признакового описанияи сохраняющая свойства интерпретируемости при принятиирешений.2. Предложена модификация интервальных узорных структур сцелью их применения к задачам прогноза уровня потерь длянепрерывно распределенной целевой переменной.3. Проведенывычислительныеэкспериментыкакнавнутрибанковских, так и на открытых данных, которыепозволилинайтиоптимальныегиперпараметрыпредложенных алгоритмов и произвести сравнение состандартнымииспользуемымивбанковскойсфереалгоритмами.ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫНаучная новизна работы представлена двумя аспектами:1. Разработан метод классификации «по запросу», которыйпредставляетсобойрандомизированнуюпроцедурупредсказания дефолта заемщика для наборов данных споказателями финансового состояния клиента.
Методпозволяет получать хорошо интерпретируемые результаты взадачах кредитного скоринга;2. Расширены средства анализа формальных понятий длярешения задачи восстановления регрессии (в случае, когдацелевая имеет непрерывное распределение). Разработаналгоритм регрессии «по запросу».Диссертация предлагает алгоритмы анализа данных, которыеимеют точность, превосходящую стандартные алгоритмы, широкоиспользуемые в банковской сфере (такие как логистическая регрессия,деревья решений и скоринговые карты), сохраняя при этом свойство5интерпретируемости в том смысле, что лицо, принимающее решение,получает набор правил, релевантных для оценки кредитоспособностизаемщика. Обоснование того, что методы АФП подходят для решениязадачкредитногоскорингаприсохранениисвойстваинтерпретируемости, приводится в основном тексте диссертации.
Приэтом новизна предлагаемых средств АФП заключается в следующем.Во-первых, АФП применяется к проблеме классификации начисловых данных, причем этап построения решетки понятийпропускается (в чем и состоит концепция классификации по запросуили «ленивой» классификации). Это позволяет работать с наборамиданных с произвольным числом кредитных историй, что критическиважно для банков, так как массивы исторических данных достаточновелики. Кроме того, каждый заемщик с неизвестной меткой классаполучает прогноз на индивидуальной основе с помощью набора правил,релевантных именно ему.Во-вторых, вводится модификация методов АФП на основеинтервальных узорных структур, что позволяет решить задачурегрессии, когда целевая переменная распределена непрерывно.Основные положения, выносимые на защиту:1.
Методклассификация«позапросу»(Query-ВasedClassification),которыйпредставляетсобойрандомизированную процедуру предсказания неизвестнойметки класса для наборов данных с большим числомнаблюдений на основе интервальных узорных структур.2. Метод регрессия «по запросу» (Query-Based Regression)который адаптирует инструментарий интервальные узорныхструктур для задачи восстановления регрессии, т.е. когдацелевая переменная распределена непрерывно.3. Вычислительные эксперименты, которые представляютвалидацию предложенных методов, включающие сравнение салгоритмами-аналогами как на внутрибанковских, так и наоткрытых данных.Результаты получены диссертантом лично. В работах по темедиссертации диссертантом предложены ключевые научные идеи,реализованы и проведены эксперименты, написаны статьи. Вклад6остальных соавторов заключается в рецензировании программного кодаэкспериментов, технической помощи в постановке экспериментов,обсуждениях полученных результатов, правках текста статей, а состороны научного руководителя, дополнительно в постановке решаемойзадачи и общем руководстве исследованиями.Практическая значимость подтверждена экспериментами пооценке качества работы различных алгоритмов для задач кредитногоскоринга и прогнозирования уровня потерь на реальныхвнутрибанковских данных, а также на открытых данных.
Предлагаемыеметоды реализованы в виде прототипа программного кода.Предложенные методы и алгоритмы были применены в рамкахпилотного проекта на наборах данных одного из топ-10 российскихбанков, а результаты расчетов, сравнительный анализ точности ибенчмаркинг приведены в диссертации.Надежность полученных результатов подтверждается строгостьюприменения математических моделей и методов, а также путемэкспериментов, сравнивающих результаты применения предлагаемых истандартных для предметной области методов.ПУБЛИКАЦИИ И АПРОБАЦИЯ РАБОТЫПубликации повышенного уровня1. Masyutin A., Kashnitsky Y. Query-Based Versus Tree-BasedClassification: Application to Banking Data // Lecture Notes inComputer Science (including subseries Lecture Notes in ArtificialIntelligence and Lecture Notes in Bioinformatics), 2017, 10352LNAI, pp.