ВКР: Текстовый анализ новостей в применении к прогнозированию банкротства компаний
Описание
Данная работа охватывает четыре модели прогнозирования банкротства компаний: логистическая регрессия, многослойный персептрон, метод опорных векторов и случайный лес. Основной ее целью является проверка применимости текстового анализа новостей к повышению точности моделей предсказания банкротства. В конечную спецификацию моделей вошло 17 финансовых, 4 рыночных и 3 макроэкономических фактора, а также несколько наборов переменных тональности, извлеченных с помощью метода мешка слов из корпуса заголовков новостей, предоставленного Thomson Reuters. При этом были использован гарвардский словарь тональности, словарь NRC и финансовый словарь Loughran & McDonald. Все четыре модели сравниваются друг с другом с учетом и без учета переменных тональности на разных горизонтах предсказания. Выборка фирм-банкротов, предоставленная UCLA-LoPucki BRD, состоит из 137 крупных публичных американских фирм, объявивших себя банкротами между 2011 и 2018 годами включительно, к которым были подобраны их финансово стабильные аналоги, случайно выбранные из листингов NYSE и NASDAQ. Выдвинутые гипотезы подтвердились частично. Лучшим словарем тональности оказался словарь L&M, а лучшей моделью – многослойный персептрон. Достигнутую точность предсказания в 90-95% на однолетнем горизонте удалось повысить за счет переменных тональности лишь незначительно и не во всех случаях.
Ключевые слова: прогнозирование банкротства, текстовый анализ, анализ тональности, логит, нейронная сеть, опорные вектора, случайный лес
This study encompasses four models of corporate default prediction: logit regression, multilayer perceptron, support-vector machine, and random forest. Its main purpose is to determine whether textual analysis of news can be successfully applied to bankruptcy prediction models so as to improve their accuracy. The predictor set consisted of 17 financial, 4 market, and 3 macroeconomic variables. In addition, a number of sets of sentiment variables derived from news headliners database provided by Thomson Reuters was introduced. Word lists of Harvard GI, NRC, and Loughran & McDonald’s were used. All four models are tested against each other, with and without textual factors, on different prediction horizons. The sample of bankrupt firms was provided by UCLA-LoPucki BRD. It consists of 137 large-sized public US firms that filed bankruptcy between 2011 and 2018 inclusively, to which financially stable counterparts randomly drawn from NYSE and NASDAQ listings were added. Study results confirmed the raised hypotheses only partially. L&M dictionary was found to be the most effective, while the most accurate model of prediction was the MLP. The accuracy scores of 90-95% achieved on one-year horizon were only slightly and occasionally improved after introduction of sentiment variables.
Keywords: bankruptcy prediction, textual analysis, sentiment analysis, logit, neural network, support-vector machine, random forest
Содержание
1. Введение
2. Проблематика прогнозирования банкротства
2.1. Детерминанты вероятности банкротства
2.2. Гипотезы исследования
3. Обзор моделей прогнозирования банкротства
3.1. Линейные подходы
3.2. Нелинейные подходы
3.3. Текстовый анализ
4. Методология исследования
4.1. Работа с текстом
4.2. Моделирование
5. Описание данных
6. Результаты исследования
6.1. Выбор нетекстовых факторов и словаря
6.2. Обучение и тестирование моделей
7. Заключение
8. Список литературы
9. Приложения
9.1. Приложение А. Данные по нетекстовым факторам
9.2. Приложение Б. Данные по текстовым факторам
9.3. Приложение В. Значимость и выбор факторов
9.4. Приложение Г. Результаты обучения моделей
9.5. Приложение Д. Листинг
9.6. Приложение Е. Состав выборок
Ключевые слова: прогнозирование банкротства, текстовый анализ, анализ тональности, логит, нейронная сеть, опорные вектора, случайный лес
This study encompasses four models of corporate default prediction: logit regression, multilayer perceptron, support-vector machine, and random forest. Its main purpose is to determine whether textual analysis of news can be successfully applied to bankruptcy prediction models so as to improve their accuracy. The predictor set consisted of 17 financial, 4 market, and 3 macroeconomic variables. In addition, a number of sets of sentiment variables derived from news headliners database provided by Thomson Reuters was introduced. Word lists of Harvard GI, NRC, and Loughran & McDonald’s were used. All four models are tested against each other, with and without textual factors, on different prediction horizons. The sample of bankrupt firms was provided by UCLA-LoPucki BRD. It consists of 137 large-sized public US firms that filed bankruptcy between 2011 and 2018 inclusively, to which financially stable counterparts randomly drawn from NYSE and NASDAQ listings were added. Study results confirmed the raised hypotheses only partially. L&M dictionary was found to be the most effective, while the most accurate model of prediction was the MLP. The accuracy scores of 90-95% achieved on one-year horizon were only slightly and occasionally improved after introduction of sentiment variables.
Keywords: bankruptcy prediction, textual analysis, sentiment analysis, logit, neural network, support-vector machine, random forest
Содержание
1. Введение
2. Проблематика прогнозирования банкротства
2.1. Детерминанты вероятности банкротства
2.2. Гипотезы исследования
3. Обзор моделей прогнозирования банкротства
3.1. Линейные подходы
3.2. Нелинейные подходы
3.3. Текстовый анализ
4. Методология исследования
4.1. Работа с текстом
4.2. Моделирование
5. Описание данных
6. Результаты исследования
6.1. Выбор нетекстовых факторов и словаря
6.2. Обучение и тестирование моделей
7. Заключение
8. Список литературы
9. Приложения
9.1. Приложение А. Данные по нетекстовым факторам
9.2. Приложение Б. Данные по текстовым факторам
9.3. Приложение В. Значимость и выбор факторов
9.4. Приложение Г. Результаты обучения моделей
9.5. Приложение Д. Листинг
9.6. Приложение Е. Состав выборок
- Введение
Характеристики ВКР
Учебное заведение
Семестр
Просмотров
1
Размер
842,67 Kb
Список файлов
ТЕКСТОВЫЙАНАЛИЗ НОВОСТЕЙ В ПРИМЕНЕНИИ К ПРОГНОЗИРОВАНИЮ БАНКРОТСТВА КОМПАНИЙ.docx
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
РЭУ им. Плеханова
Tortuga













