Резюме (1137068), страница 2
Текст из файла (страница 2)
664-673. (инд. Web of Science, Scopus)Публикации стандартного уровня2. Masyutin A. Credit scoring based on social network data //Business Informatics, No. 3 (33), 2015, pp. 15–23. (инд. Web ofScience)3. Masyutin A. Alternative Ways for Loss-Given-Default Estimationin Retail Banking //Analysis of Images, Social Networks and Texts,2014, Volume 436 of the series Communications in Computer andInformation Science, pp. 152-162. (инд. Web of Science, Scopus)74. Masyutin A., Kashnitsky Y., Sergei O. Kuznetsov. LazyClassication with Interval Pattern Structures: Application to CreditScoring, in: Proceedings of the International Workshop "What canFCA do for Artificial Intelligence?" (FCA4AI at IJCAI 2015),CEUR Workshop proceedings, Vol.1430, p. 43-54.
(инд. Scopus)5. Masyutin A., Sergei O. Kuznetsov, Continuous Target VariablePrediction with Augmented Interval Pattern Structures: A LazyAlgorithm // Proceedings of the Thirteenth InternationalConference on Concept Lattices and Their Applications, pp.273284. (инд. Scopus)Прочие публикации1. Масютин А., Борисюк В., «Скоринговая карта для оценкикредитного мошенничества» // Изд-во «Риск-менеджмент вкредитной организации», №2/2015.Доклады на конференциях и семинарах1. 3-я Международная конференция - Анализ изображений,социальных сетей и текстов, AIST'2014, Екатеринбург, Россия.Тема: «Alternative Ways for Loss-Given-Default Estimation in RetailBanking».2.
24-я Международная конференция по искусственномуинтеллекту, семинар «What can FCA do for Artificial Intelligence?»,FCA4AI, IJCAI 2015, Буэнос-Айрес, Аргентина.Тема: «Lazy Classification with Interval Pattern Structures:Application to Credit Scoring».3. Научно-исследовательский семинар аспирантской школы ФКНВШЭ, 12 ноября 2015.Тема: «Интегрированное управление риском и задачи машинногообучения», (https://aspirantura.hse.ru/cs/announcements/164947571.html).4. 13-я Международная конференция по решеткам понятий и ихприменению, CLA'2016.
Москва, Россия.Тема: «Continuous Target Variable Prediction with AugmentedInterval Pattern Structures: A Lazy Algorithm».5.Технологиибазданных,2016,Москва,Россия(https://www.osp.ru/iz/tbd_dbms).8Тема: «Оценка кредита на основе анализа формальных понятий:персонализированные модели».6. 23-й Международный симпозиум по методологии построенияинтеллектуальных систем, ISMIS'2017, Варшава, Польша.Тема: «Query-based versus tree-based classification: application tobanking data».7.
Семинар ИССА, ФКН ВШЭ, 28 сентября 2017 года.Тема: «Классификация по запросу на основе описаний интерваловв задачах управления кредитным риском».СОДЕРЖАНИЕ РАБОТЫДиссертация состоит из 4 разделов, заключения, приложений ибиблиографии из 89 источников.В первом разделе (введении) обосновывается актуальность темыработы, описываются существующие проблемы, ставятся задачиисследования. Также определяются цели работы, излагаются основныерезультаты, обсуждается теоретическое и практическое значениеработы.Во втором разделе описывается история математическогомоделирования в банковской отрасли, которое играет ключевую роль вриск-менеджменте, также описываются широко распространенныестатистические алгоритмы, используемые для классификация и задачрегрессии.
В контексте оценки кредитного риска выделяются двапараметра: вероятность дефолта (PD), уровень потерь в случае дефолта(LGD). С точки зрения машинного обучения задача оценки PD являетсязадачей бинарной классификации, а оценка LGD – задачейвосстановления регрессии. Подчеркивается компромисс междуточностью прогноза и интерпретируемостью модели, посколькунекоторые регуляторы требуют от банков причины отказа заемщикам, атакже центральные банки рассматривают банковские модели, требуяобоснования экономической интуиции за ними, которая в свою очередьявляется аргументом того, что модели будут показывать ожидаемое истабильно качество работы.Рассматривается метод скоринговых карт для оценкикредитоспособности заемщика, поскольку этот метод широкоприменяется в банковской отрасли и используется в качестве эталонадля моделей «белого ящика.
Рассматривается WOE-трансформация9исходныхфакторовмодели(Weight-of-evidence),котораяпредназначена для адекватного учета выбросов и немонотонныхзависимостей целевой переменной от значений факторов перед подачейданных в логистическую регрессию.Модели «черного ящика» обсуждаются на примере нейронныхсетей, которые выступают антагонистами интерпретируемых моделей,предоставляющих пользователю возможность понять, почему алгоритмвыдает ту или иную вероятность дефолта для клиента.В третьем разделе раскрывается первое нововведение:применение АФП к проблеме классификации на выборках с большимчислом наблюдений. Описываются базовые термины АФП (узорнаяструктура, оператор пересечения, оператор Галуа, объем исодержание понятия).Обозначим множество объектов с положительной меткой класса+ (множество положительных примеров), а множество объектов сотрицательной меткой класса:− (множество отрицательныхпримеров), при этом + ∩ − = ∅, и + ⋃ − = .Пусть множество описаний объектов D представляет собойкортежи интервалов, т.е.
= {([1 ; 1 ], … , [, ; , ]) | ∀: , ∈ } ,где K – размерность признакового пространства. Например, для K=3элементом D может быть следующий кортеж интервалов:([1;2], [-0.5;0.3], [150;340]).Пусть определено отображение : → для каждого объекта ∈ : () = ([1 ; 1 ], … , [ ; ]), т.е. каждый объект имеет описаниев виде точки в K-мерном вещественном пространстве.Для двух описаний 1 , 2 ∈ , 1 = ([1 ; 1 ], … , [K ; K ])и 2 = ([1 ; 1 ], … , [K ; K ]) операция пересечения ⊓ определяетсяследующим образом:1 ⊓ 2 = ([min(1 , 1 ); max(1 , 1 )], … , [min( , ); max( , )])Если 1 ⊓ 2 = 1 , то пишут, что 1 ⊑ 2Узорнойинтервальной структуройназывается тройка(, , ) , где = (,⊓) , т.е.
множество объектов со множествомвозможных описаний, операцией пересечения ⊓ и отображением,ставящим в соответствие объектам из определенные описания ()из .10Определим также отображение из пространства объектов впространство описаний и обратно, обозначив его символом ⋄ :⋄ =⊓∈ () для ⊆ , ⋄ = { ∈ | ⊑ ()} для ∈ .Вводятся новые определения для α-слабых описаний. Описание+ ∈ называется -слабым положительным описанием, если:⋄ ∩ ||+−|− |≤ , и ∃ ⊆ + :+ ⊑ ⋄Описание − ∈ называется -слабым отрицательным описанием,если:⋄ ∩ ||−+|+ |≤ , и ∃ ⊆ − :− ⊑ ⋄Предлагается алгоритм классификации по запросу («лениваяклассификация»).На вход алгоритма подается множествоположительных примеров + , множество отрицательных примеров − ,а также множество тестовых объектов с соответствующимиописаниями, определенными отображением δ. На выходе алгоритмвозвращает число ∆∈ для каждого тестового объекта ∈ .Данное число является аналогом скорингового балла при оценкеплатежеспособности заемщика, т.е.
на его основе возможно построениерешающих правил «если ∆( ) > , то метка класса положительная, иначе отрицательная». Идея алгоритма состоит впроверке для каждого тестового объекта , является ли он похожимна объекты из множества положительных примеров + или множестваотрицательных примеров − . Сходство определяется как суммарнаяподдержка α-слабых положительных (отрицательных) описаний,содержащих описание тестового объекта. Поддержкой -слабогоположительного описания + называется |+⋄ ⋂+ |, т.е. число объектовиз множества положительных примеров + , удовлетворяющихописанию + . Поддержкой -слабого отрицательного описания −называется |−⋄ ⋂− |, т.е. число объектов из множества отрицательныхпримеров − , удовлетворяющих описанию − .
Пусть существует p11штук -слабых положительных описаний и n штук -слабыхотрицательных описаний, причем и первые, и последние содержатописание тестового объекта ( ), т.е. ∀ = 1, … , : + ⊑ ( ) и∀ = 1, … , : − ⊑ ( ).Суммарной поддержкой -слабых положительных описаний⋄называется = ∑=1 |+⋂+ | , а суммарной поддержкой -слабых⋄отрицательных описаний называется = ∑=1 |−⋂− | . На основевеличины ∆= − производится оценка того, насколько тестовыйобъект более похож на объекты из множества положительных илиотрицательных примеров, она является аналогом скорингового балладля оценки платежеспособности заемщика.
В работе такжерассматриваются другие меры сходства и схемы голосования на основе-слабых описаний (см. раздел 3.4 диссертации).Алгоритм представляет из себя итеративную процедуру ииспользует три гиперпараметра: размер подвыборки (subsample_size),количество итераций (number_of_iterations) и альфа-порог ().Первый гиперпараметр представляет собой долю объектов,случайно извлекаемых, из множества примеров (положительных илиотрицательных). На каждой итерации извлекается подвыборка объектовиз + и − , и рассчитывается пересечение описаний объектов вподвыборке с описанием тестового объекта : = (1 ) ⊓ … ⊓ ( ) ⊓ ( )где ⁄|| = _ .Второй гиперпараметр алгоритма представляет собой количествораз (т.е.