Диссертация (1138720), страница 8
Текст из файла (страница 8)
В результате своего исследования авторамудалось показать, что дерево регрессий является эффективныминструментом для отбора акций, только при наличии достаточногоколичества итераций для отбора оптимального вектора переменных.Также авторы наглядно показали, что метод не чувствителен к высокойкорреляции между независимыми переменными. Авторы взялипоказательценынабазовыйресурс(нефть)ивыручкунефтедобывающей компании в качестве независимых переменных. Врезультате построения дерева регрессий не осуществилось сечениеисходного множества наблюдений зависимой величины отдельно попризнаку цена на нефть, а отдельно по выручке компании.
Сечениемножество было произведено лишь единожды. Таким образом,включение переменных, тесно связанных друг с другом, не приводит ксмещению оценок.Сори и Джалил (Sori and Jalil, 2009) сравнивали эффективностьметода деревьев регрессий и дискриминантного анализа привыявлении компаний, у которых был дефолт по выплатам кредитныхобязательств. При проведении своего исследования авторы особую46роль отвели вопросу определения оптимального размера дерева икритерия отнесения терминального узла к определенному классуисходов. Архитектура построенного дерева была подобрана путемпоследовательного уменьшения дерева максимального размера дооптимального уровня.
В результате авторы получили вывод о том, чтопри помощи метода деревьев регрессий можно эффективно выявлятькомпании, которые могут впоследствии иметь трудности по выплатамкредитных обязательств. Однако авторы отметили ограничение методадеревьев регрессий при отборе переменных, которое не позволиловключить ряд переменных фундаментального анализа во входнойвектор переменных по компании.Албанис и Батчелор (Albanis and Batchelor, 2000) использовалиметод деревьев классификаций для отбора акций в портфель роста. Подпортфелем роста авторы подразумевали портфель, состоящий из акцийкомпаний, показывающих наибольший рост.
В рамках своегоисследования авторы прибегли к необычной методике подбораоптимального вектора переменных для каждой отрасли в отдельности,что, по мнению авторов, позволяет наиболее оптимально отобратьакции компаний, которые в будущем будут расти с наибольшимитемпами. В результате, действительно, авторы показали, что имудалось построить портфели, которые имели доходность вышерыночной. Однако относительно результатов, полученных авторами,есть ряд комментариев: Превышение доходности построенных портфелей на Лондонскойбирже не было сопоставимо с принятым превышением акцийроста над индексом.
Таким образом, нельзя утверждать, что воптимальные портфели попали только акции роста. В каждом оптимальном векторе для отрасли присутствовалатехническая характеристика моментума акции. При этом в47анализе влияния переменных по отраслям моментум занималпервое место с большим отрывом. Авторы не показали, чтоиспользуя только моментум, инвестор бы получил доходностьстрого ниже, чем используя метод деревьев классификаций. Оптимальные векторы переменных для каждой отрасли вотдельности отличались друг от друга незначительно, что можетговорить о том, что на цены акций действуют единые драйверывне зависимости от отраслевой принадлежности.
Поэтому выборпостроения вектора переменных для каждой отрасли вотдельности является вполне обоснованным решением.Ниже представлен перечень основных работ, в которых такжеиспользовался метод деревьев регрессий и классификаций:Каприо и Клингебил (Caprio & Klingebiel, 2003); Камински иРайнхарт (Kaminsky & Reinhart, 1999); Левен и Валенсиа (Laeven &Valencia, 2008, 2010, 2012), Камински (Kaminsky, 2006).Вцеломследуетотметитьглубокоепроникновениенепараметрических методов в современную экономическую науку.Широкое распространение непараметрических методов в первуюочередь связано с гораздо менее ограничительными предпосылками,лежащимивосновеметодов.Вотличиеотстандартныхпараметрических методов, непараметрические подходы не требуютвычисления параметров распределения изучаемых величин, чтопозволяет использовать короткие ряды данных и ряды данных соструктурными сдвигами.Представленные в данной работе методы являются наиболееяркими представителями различных типов непараметрических методов(методов классификаций, нейронных сетей и Байесовских методов).48Глава 2.
Подбор параметровнепараметрических моделей для отбора акцийв инвестиционный портфельВданнойглавеописанымеханизмыиспользованиянепараметрических методов при отборе ценных бумаг в портфель,которые впоследствии будут использованы в исследовании.2.1. Метод деревьев классификацийМетод деревьев классификаций является непараметрическимметодом, который распределяет наблюдения в соответствующиегруппыприпомощиклассификационногоалгоритма.Дляиспользования метода необходимо составить базу данных похарактеристикам с целью классификации будущих наблюдений. Приэтом следует отметить, что финальные группы, в одну из которых будетклассифицировано каждое последующее наблюдение, должны бытьстрого определены и их количество должно быть конечным.Методология использования данного метода была основана на работеБуяновой и Саркисова (2015).Приклассификациикаждогоновогонаблюдениярассматриваются его основные параметры, и на их основе наблюдениюприсваивается определенный класс.
Таким образом, строится деревоклассификаций с узлами и ветвями.Допустим, для каждого наблюдения сформирован векторпараметров , который используется для определения класса каждогонаблюдения. Определим набор различных классов С = {1,2, … , }.Таким образом, существует различных классов. Далее необходимоопределить правило, согласно которому уже имеющиеся наблюденияклассифицируются в один из классов.
Для финансовых активов49удобно распределять наблюдения по классам в зависимости отсоотношенияпоказателядоходностипонаблюдению( ) иустановленного порогового уровня доходности ̅. Например, правило,которое было использовано при классификации в данной работе: > ̅, = {покупка актива}[ < −̅, = {продажа актива}−̅ ≤ ≤ ̅, = {сохранение актива},где пороговые значения −̅ и ̅ выбирались на основе среднегопоказателя доходности целевого рынка за рассматриваемый период.При построении прогноза на основании новых данныхнеобходимо выделить из имеющихся наблюдений «обучающуювыборку» = {(1 , 1 ), … , ( , )}, на основании которой алгоритмбудет отрабатываться.Классификация наблюдений представляет собой бинарнуюпроцедуру и заключается в разбиении исходного множества наподмножества 1 , 2 , … , , где – порядок итерации расщепления на групп.
При этом целью данного разбиения является получение прикаждой последующей итерации более однородных групп, чем припредыдущей итерации.Однако сложно сформировать оптимальное количество операцийпорасщеплениюисходногомножестванаблюденийнасоответствующие подмножества. Если в процессе расчета будетосуществлено слишком малое количество итераций, то в итогеполучатся неоднородные группы. Если же итераций будет слишкоммного, то в итоге в финальных группах будет находиться по одномунаблюдению.50Ввиду того, что при каждой итерации необходимо увеличениеоднородности группы, введем для каждого узла в дереве размера меру неоднородности ().
На каждом этапе разбиения наблюденияделятся в пропорциях и , в зависимости от того, в какой узел – или – попали. Ниже представлена базовая схема разбиения узла:Рисунок 1. Базовая схема разбиения узлаТакимобразом,при неоднородность должна снижатьсякаждойитерациисогласноследующемувыражению:∆(, ) = () − ( ) − ( ),где(1)∆(, ) – снижение неоднородности после итерации ,(), ( ), ( ) − неоднородностьсоответсвтенно,, − пропорции разделения узла .51узла, иРассматривая в целом дерево классификаций, понимаем, чтообщая неоднородность задается следующим выражением ():̃̃() = ∑=1() = ∑=1()(),где(2)() −неоднородность всего дерева,̃ − заданное количество узлов,() −пропорции разбиения узла .Из выражений (1) и (2) очевидно следует, что при проведениипоследующей операции разбиения узла общая неопределенностьнового дерева размерности ′ будет рассчитываться как:( ′ ) = ∑ ′−{} () + ( ) + ( ),(3) ′ − новая размерность дерева.гдеЛогично, что в итоге необходимо решить задачу минимизацииобщей неопределенности дерева.
Однако данную задачу можнотрансформироватьвзадачумаксимизацииуменьшениянеоднородности при каждой последующей итерации :∈max ∆(, ) = max () − ( ′ ) = max () − − ( ) +∈∈( ),где(4)∆(, ) − изменение общей неоднородности дерева послеитерации .Следовательно, можно сформировать правило для определениянеобходимости в последующей итерации по разбиению узла, введяпороговое значение для уменьшения неоднородности:∈max ∆(, ) > ,(5)52где > 0 − пороговоезначениедляуменьшениянеоднородности.Введя правило, согласно которому останавливается процессразбиенияузлов,необходимоопределить,какдлякаждоготерминального1 узла ∈ ̃ определяется класс (). Если количествонаблюдений, относящихся к классу , в узле наибольшее, то данномуузлу присваивается класс . Таким образом, терминальному узлуприсваивается класс , если в нем наибольшее значение имеетусловная вероятность (|) того, что наблюдение, попавшее в узел ,относится к классу .Введем для каждого наблюдения величину (), определяющуювероятность того, что объект классифицирован некорректно:() = 1 − max (|),(6)где() − вероятность некорректной классификации объекта вузле ,(|) − условная вероятность того, что наблюдение,попавшее в узел , относится к классу .Далее необходимо ввести «штраф» (|) за каждое неверноклассифицированное наблюдение, принадлежащее к классу ипопавшее в класс : (|) > 0, если ≠ { (|) = 0 , если = ,где(7) (|) − «штраф» за каждое неверно классифицированноенаблюдение.1Терминальным узлом называется узел, который впоследствии не разбивается.53Следовательно, для каждого узла можно выписать задачуминимизации ошибки при классификации:() = min ∑ (|)(|).(8)И данное выражение для всего дерева:() = ∑ () = ∑ ()(),где(9)() − вероятность некорректной классификации в рамкахвсего дерева.Выше была введена функция () как мера неоднородностикаждого узла.