Резюме (Рандомизированные алгоритмы на основе интервальных узорных структур)

PDF-файл Резюме (Рандомизированные алгоритмы на основе интервальных узорных структур) Технические науки (40621): Диссертация - Аспирантура и докторантураРезюме (Рандомизированные алгоритмы на основе интервальных узорных структур) - PDF (40621) - СтудИзба2019-05-202019-05-20zzyxelСтудИзба

Рандомизированные алгоритмы на основе интервальных узорных структур86

Описание файла

Файл "Резюме" внутри архива находится в папке "Рандомизированные алгоритмы на основе интервальных узорных структур". PDF-файл из архива "Рандомизированные алгоритмы на основе интервальных узорных структур", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиМасютин Алексей АлександровичРАНДОМИЗИРОВАННЫЕ АЛГОРИТМЫ НА ОСНОВЕИНТЕРВАЛЬНЫХ УЗОРНЫХ СТРУКТУР ДЛЯ ЗАДАЧКЛАССИФИКАЦИИ И РЕГРЕССИИ В ЗАДАЧАХКРЕДИТНОГО РИСК-МЕНЕДЖМЕНТАРЕЗЮМЕдиссертации на соискание ученой степеникандидата компьютерных наук НИУ ВШЭМосква –– 2018Диссертационная работа выполнена в Национальном исследовательскомуниверситете «Высшая школа экономики».Научный руководитель:Сергей Олегович Кузнецов, д.ф.-м.н.,профессор, руководитель департамента анализаданных и искусственного интеллекта ФКН ВШЭ2ТЕМА ДИССЕРТАЦИИВ диссертации предложены алгоритмы прогноза вероятностидефолта и уровня потерь в случае дефолта, основанные на методаханализа формальных понятий.

Предложенные алгоритмы с однойстороны превосходят по метрике качества работы используемые вбанковской сфере стандартные модели, а с другой стороны сохраняютсвойство интерпретируемости.Актуальность темы работы. Развитие информационныхтехнологий создает гораздо более жесткую конкурентную среду длябанков и кредитных организаций.

Например, с января 2017 года двекрупнейшие российские телекоммуникационные компании началипредоставлять кредиты своим клиентам, хотя они никогда прежде неразрабатывали данное бизнес-направление1. Предоставление таких услугсо стороны нефинансовых компаний стало возможным благодарявнедрению современной ИТ-инфраструктуры для хранения большогообъема данных о клиентах и использованию методов математическогомоделированиядляоценкикредитоспособностиклиентов.Международный лидер в сфере стратегических консалтинговых услугMcKinsey публикует исследования, согласно которым к 2025 годумировая банковская индустрия претерпит значительные изменения.Одной из основных причин трансформации является цифровизациябанковских услуг, быстро растущий объем данных о клиентах и ихоперациях, появление новых типов рисков, связанных с использованиеммашинного обучения при принятии решений.Математическое моделирование в банковском секторе находитодно из основных приложений в области управления рисками.Необходимым условием эффективного управления рисками являетсяспособность адекватно оценивать вероятность и величину риска.

Наданный момент, задачи оценки риска решаются широким спектромстатистических инструментов, таких как скоринговые карты,рейтинговые модели, модели оценки уровня потерь в случае дефолта.В то же время одной из основных причин многочисленных отзывовлицензий, среди прочего, является низкое качество кредитного1http://www.rbc.ru/finances/11/01/2017/587500529a794767fa723fa8, имеются ввиду две телеком-компании: Билайн и МТС.3портфеля; неадекватные оценки вероятности дефолта и/или величиныпотерь, в случае дефолта 2 (например, Пробизнесбанк, Татфондбанк вРоссии).

Так, в пресс-релизах Центрального Банка России, можно найтиследующие комментарии: «кредитная организация неадекватнооценивала риски при неудовлетворительном качестве активов», «врезультате расчета ожидаемых потерь, учитывая принятые риски,кредитная организация полностью потеряла свой капитал» и т. д.В связи с увеличением объема данных о клиентах стандартныеметоды классификации и регрессии показывают меньшую точность посравнению с более сложными алгоритмами, такими как градиентныйбустинг и машины опорных векторов. Тем не менее управление рискамитребует свойства интерпретируемости прогнозов, полученных на основемодели, что в случае сложных алгоритмов, как правило, невозможно.Кроме того, существуют определенные предписания Банка России,которые регулируют процесс оценки кредитного риска на основематематических моделей, и банки проходят детальные проверкииспользования моделей для оценки рисков, причем значительная частьпроверок проводится с целью подтверждения стабильности работымодели и валидации ее бизнес-логики.Данная работа предлагает алгоритмы решения задачи оценки риска,которые обладают свойством интерпретируемости, аналогичнойассоциативным правилам, при этом превосходят по точности обычныедля банковской сферы методы классификации и регрессии, такие какскоринговые карты и деревья решенийЭто достигается с помощью использования методов анализаформальных понятий и интервальных узорных структур.

Было введенонесколько новых определений и модификаций для существующихалгоритмов, с тем чтобы можно было осуществлять прогноз непрерывнораспределенной целевой переменной на основе узорных структур иобрабатывать наборы данных со значительным числом наблюдений.Объект исследования - интерпретируемые математическиемодели для оценки вероятности дефолта и оценки уровня потерь вслучае дефолта.2http://www.cbr.ru/press/PR/?file=12082015_085127ik2015-08-12t08_46_23.htm4Цель работы - разработка методов оценки кредитоспособности иоценки уровня потерь в случае дефолта, которые обеспечивают болеевысокую точность по сравнению со скоринговыми картами и деревьямипринятия решений при сохранении хорошей интерпретируемости.

Длядостижения данной цели были решены следующие задачи:1. Разработана процедура рандомизированного поиска описанийна основе анализа формальных понятий, позволяющих решатьзадачу кредитного скоринга на основе признакового описанияи сохраняющая свойства интерпретируемости при принятиирешений.2. Предложена модификация интервальных узорных структур сцелью их применения к задачам прогноза уровня потерь длянепрерывно распределенной целевой переменной.3. Проведенывычислительныеэкспериментыкакнавнутрибанковских, так и на открытых данных, которыепозволилинайтиоптимальныегиперпараметрыпредложенных алгоритмов и произвести сравнение состандартнымииспользуемымивбанковскойсфереалгоритмами.ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫНаучная новизна работы представлена двумя аспектами:1. Разработан метод классификации «по запросу», которыйпредставляетсобойрандомизированнуюпроцедурупредсказания дефолта заемщика для наборов данных споказателями финансового состояния клиента.

Методпозволяет получать хорошо интерпретируемые результаты взадачах кредитного скоринга;2. Расширены средства анализа формальных понятий длярешения задачи восстановления регрессии (в случае, когдацелевая имеет непрерывное распределение). Разработаналгоритм регрессии «по запросу».Диссертация предлагает алгоритмы анализа данных, которыеимеют точность, превосходящую стандартные алгоритмы, широкоиспользуемые в банковской сфере (такие как логистическая регрессия,деревья решений и скоринговые карты), сохраняя при этом свойство5интерпретируемости в том смысле, что лицо, принимающее решение,получает набор правил, релевантных для оценки кредитоспособностизаемщика. Обоснование того, что методы АФП подходят для решениязадачкредитногоскорингаприсохранениисвойстваинтерпретируемости, приводится в основном тексте диссертации.

Приэтом новизна предлагаемых средств АФП заключается в следующем.Во-первых, АФП применяется к проблеме классификации начисловых данных, причем этап построения решетки понятийпропускается (в чем и состоит концепция классификации по запросуили «ленивой» классификации). Это позволяет работать с наборамиданных с произвольным числом кредитных историй, что критическиважно для банков, так как массивы исторических данных достаточновелики. Кроме того, каждый заемщик с неизвестной меткой классаполучает прогноз на индивидуальной основе с помощью набора правил,релевантных именно ему.Во-вторых, вводится модификация методов АФП на основеинтервальных узорных структур, что позволяет решить задачурегрессии, когда целевая переменная распределена непрерывно.Основные положения, выносимые на защиту:1.

Методклассификация«позапросу»(Query-ВasedClassification),которыйпредставляетсобойрандомизированную процедуру предсказания неизвестнойметки класса для наборов данных с большим числомнаблюдений на основе интервальных узорных структур.2. Метод регрессия «по запросу» (Query-Based Regression)который адаптирует инструментарий интервальные узорныхструктур для задачи восстановления регрессии, т.е. когдацелевая переменная распределена непрерывно.3. Вычислительные эксперименты, которые представляютвалидацию предложенных методов, включающие сравнение салгоритмами-аналогами как на внутрибанковских, так и наоткрытых данных.Результаты получены диссертантом лично. В работах по темедиссертации диссертантом предложены ключевые научные идеи,реализованы и проведены эксперименты, написаны статьи. Вклад6остальных соавторов заключается в рецензировании программного кодаэкспериментов, технической помощи в постановке экспериментов,обсуждениях полученных результатов, правках текста статей, а состороны научного руководителя, дополнительно в постановке решаемойзадачи и общем руководстве исследованиями.Практическая значимость подтверждена экспериментами пооценке качества работы различных алгоритмов для задач кредитногоскоринга и прогнозирования уровня потерь на реальныхвнутрибанковских данных, а также на открытых данных.

Предлагаемыеметоды реализованы в виде прототипа программного кода.Предложенные методы и алгоритмы были применены в рамкахпилотного проекта на наборах данных одного из топ-10 российскихбанков, а результаты расчетов, сравнительный анализ точности ибенчмаркинг приведены в диссертации.Надежность полученных результатов подтверждается строгостьюприменения математических моделей и методов, а также путемэкспериментов, сравнивающих результаты применения предлагаемых истандартных для предметной области методов.ПУБЛИКАЦИИ И АПРОБАЦИЯ РАБОТЫПубликации повышенного уровня1. Masyutin A., Kashnitsky Y. Query-Based Versus Tree-BasedClassification: Application to Banking Data // Lecture Notes inComputer Science (including subseries Lecture Notes in ArtificialIntelligence and Lecture Notes in Bioinformatics), 2017, 10352LNAI, pp.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.