Резюме (1137068), страница 3
Текст из файла (страница 3)
количество итераций), которое подвыборка случайноизвлекается из + и − . Данный гиперпараметр также настраиваетсячерез поиск по сетке. Третий гиперпараметр определяет, какиеописания будут считаться -слабыми и будут учтены дляпоследующего предсказания метки класса тестового объекта. Описания,полученные в результате прохождения итераций алгоритма, но неявляющиеся -слабыми не сохраняются.Процедура повторяется для каждого тестового объекта дляотдельно для множества положительных и множества отрицательныхпримеров, создавая множество α-слабых положительных иотрицательных описаний. Конечным результатом работы алгоритма длятестового объекта, является разница между суммарной поддержкой 12слабых положительных описаний и суммарной поддержкой -слабыхотрицательных описаний.
На основе данной разницы по всему наборутестовых объектов рассчитывается метрика качества работы алгоритма:коэффициент Джини, т.е. мера того, насколько точно возможнопредсказать метку класса для тестового объекта, зная разницусуммарных поддержек.Алгоритм проверяется как на внутрибанковских данных, так и наоткрытых данных Kaggle. Множество положительных примеров – этонабор заемщиков, которые допустили дефолт по своему кредиту.Целевой атрибут (дефолт по кредиту) определяется как более 90 днейпросрочки в течение первых 12 месяцев после выдачи кредита.Множество остальных заемщиков представляет собой множествоотрицательных примеров. Каждое множество состоит из 1000 объектов.Набор тестовых данных состоит из 300 объектов и извлекается из тойже генеральной совокупности, что и множества положительных иотрицательных примеров.
Объясняющими переменными являютсяразличные показатели, такие как сумма кредита, срок, процентнаяставка, отношение платежа к доходу, возраст заемщика,подтвержденный/неподтвержденный документарно доход, показателикредитной истории и т.д. Всего набор переменных, используемых дляклассификации, содержал 28 числовых атрибутов. Чтобы оценитьточность алгоритма классификации были рассчитаны коэффициентыДжини для каждой комбинации гиперпараметров на основе 300прогнозов на тестовом наборе. Коэффициент Джини рассчитывается наоснове разницы между суммарным количеством объектов вположительных описаниях и аналогично – в отрицательных. Даннаяразница рассматривается как мера ранжирования заемщиков,аналогичная показателю скорингового балла. Реализован подборгиперпараметров алгоритма по сетке.13Коэффициенты Джини для различных значений гиперпараметровалгоритма (QBCA)Коэффициенты Джини на уточненной области поиска по сетке14Алгоритм классификации по запросу в сравнении с классическимимоделями, принятыми в банках и другими бенчмарками навнутрибанковских данныхАлгоритм был также протестирован на открытых данныхплатформы Kaggle конкурса 2012 года «Give me some credit»3.
Данныеимеют бинарную целевую переменную (метка класса) в зависимости оттого, был ли заемщик дефолтным или нет.Алгоритм классификации по запросу и бенчмарки для открытогонабора данных KaggleПроводится анализ чувствительности точности работы алгоритмав зависимости от настроек гиперпараметров.Также представлена визуализация коллекций α-слабых описаний,которая позволяет интерпретировать результат модели для клиента.При рассмотрении метки целевого класса тестового объекта (хорошего3https://www.kaggle.com/c/GiveMeSomeCredit15или плохого) алгоритмы строят портреты хороших и плохих клиентовпо историческим данным в многомерном пространстве признаков.Ниже приведены несколько примеров двухсторонних областейдля разных значений числа итераций:Положительные описания изображены красным цветом, аотрицательные - синим.
Приводится обоснование, что такой наборобластей в пространстве признаков дает понимание того, почемуконкретныйзаемщиксчитаетсявысокорискованнымилинизкорискованным с точки зрения кредитования.Четвертый раздел содержит второе нововведение: адаптацияАФП к регрессионной задаче (т.е. для случая непрерывнораспределенной целевой переменной).
Чтобы сделать методы АФПприменимыми к этому случаю, вводится определение расширеннойинтервальной узорной структуры.Определим расширенную интервальную узорную структуру какчетверку (G,D,δ,h), где – множество объектов, – множество16возможных описаний объектов, ∈ .
Описание d для нашейпредметной области представляет собой кортеж интервалов, в которомтеперь выделяются два элемента dx и dy (dy – интервал значений дляцелевого атрибута ∈ , а dx – кортеж интервалов значений дляобъясняющих атрибутов x, на основе которых прогнозируетсявеличина y). Также как в разделе 3 используется отображение δ: G→D идополнительно к нему эмпирическая функция плотности h ∈ H, где H семейство функций плотности для целевого атрибута. Мы также будемиспользовать обозначения δx и δy, чтобы разделять описания,содержащие объясняющие атрибуты и целевой атрибут соответственно.Определение оператора пересечения ⊓ остается неизменным.Пусть дано произвольное множество объектов A0 ∈ G, т.е.:0 = {1 , 2 , … , },( ) = ( , ) = ([1 ; 1 ], … , [ ; ], [ ; ])для = 1, … , где J – число объясняющих атрибутов.
Отображение ⋄ определимследующим образом:⋄0 = (0 , ℎ0 )где 0 = {0 , 0 } и 0 = (1 ) ⊓ … ⊓ ( ) , а описаниецелевого атрибута есть 0 = (1 ) ⊓ … ⊓ ( ), что на самом делеявляется интервалом [ymin, ymax], а h0 – отображение 0 → [0; 1] , т.е.эмпирическая функция плотности, построенная по наблюдениямзначений целевого атрибута в A0:∑∈ ⥠[−1 ,)⊑ ()ℎ([−1 , )) =, ∀ = 1, … , ||−где 0 = , = ,и ∆ = − −1 = ,⥠ – функция-индикатор.Мы будем использовать композицию отображения ⋄ похожимобразом, как это делается, в обычных интервальных узорныхструктурах, но определение множества объектов, соответствующихописанию, будет производиться только по той части описания, котораяотносится к объясняющим атрибутам:⋄⋄⋄⋄0 = (0 , ℎ0 ) ≝ 0 = 117Для того, чтобы перейти к итоговому прогнозу целевого атрибутаполезно ввести определение α-слабого описания с ω-допустимымвыбросом.
Расширенная интервальная узорная структура = ( , ) ∈ называется α-слабым описанием с ω-допустимым выбросом, если:1−|{ ∈ | − ( − ) ≤ () ≤ + ( − )}|≤||где () – значение целевого атрибута для объекта ,множество = ⋄ , – интервал [ ; ] для целевого атрибута,а m – медиана эмпирической функции плотности h, построенной наинтервале на основе значений целевого атрибута среди объектов из.Рассмотрим пример использования введенных понятий.Пусть множество объектов есть = {1 , 2 , 3 } описаниякоторых имеют два объясняющих признака 1 , 2 и один целевойатрибут :1Объекты\Атрибуты123303531.52101211.50.50.70.8Пусть 0 = {1 , 2 }.Тогда (1 ) = ([30; 30], [10; 10]), (1 ) = [0.5; 0.5] (2 ) = ([35; 35], [12; 12]), (2 ) = [0.7; 0.7]0 = (0 , 0 )180 = (1 ) ⊓ (2 ) = ([30; 35], [10; 12])0 = (1 ) ⊓ (2 ) = [0.5; 0.7]ℎ0 = {0.5,0.7}⋄0 = (0 , ℎ0 )⋄⋄⋄⋄0 = (0 , ℎ0 ) = 0 = 1 = {1 , 2 , 3 }1 = ([30; 35], [10; 12], [0.5; 0.8])ℎ1 = {0.5,0.7,0.8}⋄⋄⋄⋄0 = 1 = (1 , ℎ1 )Описание 0 = ([30; 35], [10; 12], [0.5; 0.7]) является 1/3-слабымописанием с 1-допустимым выбросом, т.к.
медиана 0.5 и 0.7 равняется0.6.Первым этапом регрессии «по запросу» (QBRA) является поискα-слабых описаний с ω-допустимым выбросом, вторым - предсказаниедля тестового объекта на основе найденных описаний. Размерподвыборки – это гиперпараметр, который представляет собойколичество объектов, которые случайным образом извлекаются измножества объектов G. Далее фиксируются α и ω. После вычисляетсяописание 0 = (1 ) ⊓ … ⊓ ( ) ⊓ ( ) и эмпирическая функцияплотности для значений целевого атрибутов. Если 0 является α слабым описанием с ω-допустимым выбросом, то оно добавляется кколлекцииописаний,которыебудутиспользоватьсядляпрогнозирования.
После завершения поиска описаний проходитследующий этап, который формирует прогноз целевого атрибута наоснове найденных описаний. Итоговое предсказание было определенокак медиана смеси распределений целевого атрибута из всех α - слабыхописаний с ω-допустимым выбросом.Для оценки качества работы алгоритма были использованыфинансовые данные балансов и отчетов о прибылях и убытках 612корпоративных клиентов одного из топ-10 крупнейших российскихбанков. Среди прочих факторов мы использовали отношение активов кобязательствам, отношение долга к собственному капиталу, прибыль доналогов и процентных платежей, доходность активов и т.д.
Этиклиентыбылиоцененывовремяраннихсигналовонеплатежеспособности, и была собрана статистика по процентувозвращенной задолженности.Точность предсказания была оценена с точки зрения среднегоабсолютного отклонения (mean absolute deviation - MAD):19∑̂ |=1 | − где является целевым атрибутом (уровень возврата долга) дляi-го объекта из тестового множества и ̂ является прогнозом для .Алгоритм сравнивался с моделями случайных лесов и некоторымидругими стандартными методами.Распределение MAD показывает, что алгоритм «ленивой»регрессии позволяет получить более низкую ошибку прогноза, чем умоделей случайных лесов.
=Распределения представляют собой величину MAD, достигаемуюдля большого числа запусков алгоритма с различными комбинациямизначений гиперпараметров.Другие бенчмарки приведены ниже:Взаключенииподчеркивается,чтоподводятсяитогиисследования,иключевымтребованиемпрактического20моделирования в риск-менеджменте выступает интерпретируемость,независимо от точности модели. АФП предлагает привлекательныеинструменты для извлечения знаний из данных, поскольку извлеченныеописания могут рассматриваться как посылки ассоциативных правил.Кроме того, результаты экспериментальных вычислений показывают,что предлагаемые рандомизированные алгоритмы для задач крединтогоскоринга и прогноза уровня потерь превосходят стандартные методы,используемые в банках, такие как скоринговые карты и деревьярешений в терминах Джини и среднего абсолютного отклонения.Предлагаемыеметодыклассификацииирегрессиимогутконкурировать со стандартными статистическими процедурами,принятыми в банковской сфере, предоставляя интерпретируемыенаборы правил для принятия решений относительно конкретногозаемщика.В приложении приведен программируемый код для QBCA иQBRA.
Предоставляются некоторые ключевые функции для расчетаоператора пересечения, расчета объема и содержания понятия, поискаальфа-слабых описаний и схем голосования для построенияокончательного прогноза. Язык, на котором предоставлен код, R (https://www.r-project.org/) поскольку он обладает интуитивнымсинтаксисом, так что идея реализации алгоритма удобно преподноситсячитателю. Однако для производственных реализаций рекомендуетсяиспользовать другие языки, такие как Java или Spark (дляраспределенных систем).Результаты1.