Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей". PDF-файл из архива "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
Федеральное Государственное Образовательное УчреждениеВысшего Профессионального Образования«Московский Физико-Технический Институт(Государственный Университет)»На правах рукописиЛе Мань ХаВычислительный комплекс-классификатортекстов с использованием морфологическогоанализа и нейро-семантических сетейСпециальность 05.13.15 - Вычислительные машины, комплексы икомпьютерные сети - по техническим наукамДиссертация на соискание ученой степеникандидата технических наукНаучный руководитель: профессор, д.т.н. Галушкин Александр ИвановичНаучный руководитель: д.т.н. Харламов Александр АлександровичМосква20171ОглавлениеВведение6Глава 1: Критический анализ существующих методов представления и классификации текстов1.1 Методы представления текстов .
. . . . . . . . . . . . . . . . . . .1.1.1 Статистический метод TF-IDF . . . . . . . . . . . . . . . .1.1.2 Векторное представление слов . . . . . . . . . . . . . . . .1.2 Байесовский метод для классификации текстов . . . . . . .
. . . .1.3 Метод Роччио . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.4 Метод «К» ближайших соседей . . . . . . . . . . . . . . . . . . . .1.5 Метод опорных векторов . . . . . . . . . . . . . . . . . . . . . . .1.6 Логистическая регрессия . . . . . . . . . . . .
. . . . . . . . . . .1.6.1 Бинарная логистическая регрессия . . . . . . . . . . . . . .1.6.2 Мультиномиальная логистическая регрессия - Softmax . .1.7 EM-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.7.1 Функция правдоподобия . . . . . . . . . . . . . . . . . . . .1.7.2 EM-алгоритм . . . . . . . . . . .
. . . . . . . . . . . . . . .1.8 Скрытая марковская модель . . . . . . . . . . . . . . . . . . . . .1.8.1 Марковская модель . . . . . . . . . . . . . . . . . . . . . . .1.8.2 Скрытая марковская модель . . . . . . . . . . . . . . . . .1.8.3 Алгоритм прямого-обратного хода . . .
. . . . . . . . . . .1.8.4 Алгоритм Витерби . . . . . . . . . . . . . . . . . . . . . . .1.9 Латентно-семантический анализ . . . . . . . . . . . . . . . . . . .1.9.1 Латентно-семантический анализ с использованием нейронной сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2141414151821222428282929303031313434364244.....4648515254Глава 2: Анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификациитекстов2.1 Многослойные нейронные сети . .
. . . . . . . . . . . . . . . . . .2.2 Метод обратного распространения ошибки . . . . . . . . . . . . .2.3 Метод стохастического градиента . . . . . . . . . . . . . . . . . .2.4 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.4.1 Скрытые признаки и глубинное обучение . . .
. . . . . . .2.4.2 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5 Свёрточная нейронная сеть . . . . . . . . . . . . . . . . . . . . . .2.5.1 Свёртка . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5.2 Субдискретизация . . . . . . . . . . . . . . . . . . . . .
. .2.5.3 Обучение свёрточной нейронной сети . . . . . . . . . . . .2.5.4 Преимущества свёрточной нейронной сети . . . . . . . . .2.6 Рекуррентная нейронная сеть . . . . . . . . . . . . . . . . . . . . .2.6.1 Long Short-Term Memory . . . . . . . . . . . . . . . . . . .2.7 Выводы . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .5659626464656670717272747576781.101.111.121.131.9.2 Вероятностный латентно-семантический анализ . .Рекурсивный автоэнкодер . . . . . . . . . . . . . . . . . . .Свёрточные нейронные сети для классификации текстов .Рекуррентные нейронные сети для классификации текстовВыводы . .
. . . . . . . . . . . . . . . . . . . . . . . . . . ................Глава 3: Математическое и алгоритмическое обеспечение вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей3.1 Разработка метода морфологического анализа текстов . . . . . .3.1.1 Структура морфологического словаря . . . . . . . . .
. . .3.1.2 Морфологический разбор . . . . . . . . . . . . . . . . . . .3.1.3 Разрешение морфологической многозначности . . . . . . .3.2 Разработка математического и алгоритмитического обеспечениявычислительного комплекса семантической нейронной сети . . . .38081848586883.3 Разработка математического и алгоритмитического обеспечениявычислительного комплекса рекурсивного автоэнкодера морфологического анализа . . . . . . .
. . . . . . . . . . . . . . . . . . . . 933.4 Разработка метода «К» ближайших соседей с использованием двоичного дерева . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 973.5 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Глава 4: Экспериментальное исследование вычислительного комплексаклассификатора текстов1014.1 Разработка программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейро-семантических сетей . . . . . . . . . . . . .
. . . . . 1014.2 Эксперименты и оценка результатов . . . . . . . . . . . . . . . . . 1074.2.1 Метод оценки результатов экспериментов . . . . . . . . . . 1074.2.2 Экспериментальное исследование нейро-семантической сети на основе морфологического анализа . . . . . . . . . . . 1084.2.3 Экспериментальное исследование рекурсивного автоэнкодера морфологического анализа .
. . . . . . . . . . . . . . 1104.2.4 Экспериментальное исследование алгоритма «К» ближайших соседей с использованием двоичного дерева . . . . . . 1124.3 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Заключение114Список литературы115Приложения134Приложение 1. Русские морфологические характеристики OpenCorpora 134Приложение 2.
Английские морфологические характеристики PennTreeBank138Приложение 3. Demo морфологического анализа и классификации текстов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Приложение 4. Пример технического задания классификации эмоциональной окраски отзывов пользователей . . . . . . .
. . . . . . . . 1414Приложение 5. Патент на изобретение голосовой связи на естественномязыке между человеком и устройством . . . . . . . . . . . . . . . 143Приложение 6. Акты о внедрении в практические разработки . . . . . 1455ВведениеАктуальность темы диссертацииОбработка естественного языка [1] является одним из самых важных технологий информационной эпохи. Понимание языков является также важнейшимэлементом искусственного интеллекта [2].
Приложения обработки естественногоязыка есть везде, потому что люди общаются все на языке: веб-поиск, рекламы,электронная почта, обслуживание клиентов, перевод языка, и т. д. [3] Существует большое разнообразие базовых задач и моделей машинного обучения дляреализации приложений обработки естественного языка. В последнее время, методы глубокого обучения с применением искусственных нейронных сетей получили очень хорошие результаты для различных задач обработки естественногоязыка [4].
Эти модели часто могут быть обучены с помощью разных наборовданных и не требуют традиционные решения конкретных задач [5].Классификация текстов [6] — одна из главных задач обработки естественного языка, заключающаяся в определении категории текста, список категорийможет быть известен или нет [7].
Классификация текстов часто реализуется наосновании содержания текстов, анализа элементов текста (слова, предложенияи т.п.) и взаимодействия между ними [8]. Классификация может осуществляться вручную или автоматически с применением методов машинного обучения[9]. Современные методы классификации текстов требуют огромных баз данныхдля обучения, и способны изучать и классифицировать семантические значениятекстов [10].С развитием компьютерных технологий появились требования к созданиюинтеллектуальных систем, которые способны решать творческие задачи без участия человека [11]. Спустя полвека, технология машинное обучение, в том числеобработка естественных языков и классификация текстов еще далеки от совершенства [12].Для классификации данных интернет-ресурсов требуются современные алгоритмы, способные не только обработать огромное количество информации, нои решать задачи, которые несколько лет назад решали полностью вручную [13]:1.
Разделение сайтов по тематическим каталогам [14]62. Борьба со спамом [15]3. Распознавание эмоциональной окраски текстов [16]4. Персонификация рекламы [17]и т.п.Российские и иностранные ученые и исследователи, такие как Л. Л. Иомдин[18], А. И. Галушкин [19], А. А. Харламов [9], В. О. Толчеев [20], М. В. Киселев[21], Д. О. Жуков [22], В.
Я. Цветков [23], А. О. Казенников [24], A. Ng [25], D.Jurafsky [26], J. H. Martin [26], C. D. Manning [3], R. Socher [27], T. Mikolov [28],внесли значительный вклад в развитие теории информационных систем, методов информационного поиска, методов классификации и кластеризации текстов,методов синтаксического анализа и извлечения знаний из текстов.
Активно ведут работы в этих направлениях такие организации, как Институт Проблем Передачи Информации РАН, Институт системного анализа РАН, Яндекс, Mail.ru,ABBYY, Google, Facebook, Microsoft.В диссертационной работе, на основе критического анализа существующихметодов классификации текстов гипотезируется, что создание вычислительногокомплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей может обеспечить высокое качество и быстродействие обработки и классификации текстов.Цель и задачи исследованияЦелью диссертации является разработка математического, алгоритмитического и программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейросемантических сетей.Для достижения этой цели в диссертационной работе сформулированы следующие задачи :1.
Проведение критического анализа существующих методов представленияи классификации текстов.2. Проведение анализа методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов3. Разработка метода морфологического анализа текстов.74. Разработка математического и программного обеспечения вычислительного комплекса семантической нейронной сети для получения векторного представления грамматических структур текстов.5.
Разработка алгоритмитического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера морфологического анализа дляполучения векторного представления текстов.6. Разработка метода «К» ближайших соседей с использованием двоичногодерева.7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплексадля морфологического анализа и классификации текстов.8. Внедрение результатов и научных положений диссертации в практическиеразработки.Объектом исследования диссертации является вычислительный комплекс морфологического анализа и классификации текстов.Предмет исследования определен паспортом специальности 05.13.15,областями исследования: №2 - «Теоретический анализ и экспериментальное исследование функционирования вычислительных комплексов с целью улучшенияих технико-экономических и эксплуатационных характеристик» и №3 - «Разработка научных методов и алгоритмов организации специальной обработки данных, хранения и ввода-вывода информации», а также перечнем задач, решаемыхв диссертации.Научная новизна работы состоит в следующем:1.