Диссертация (1090484)

Файл №1090484 Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)Диссертация (1090484)2018-01-182018-01-18СтудИзба

Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Федеральное Государственное Образовательное УчреждениеВысшего Профессионального Образования«Московский Физико-Технический Институт(Государственный Университет)»На правах рукописиЛе Мань ХаВычислительный комплекс-классификатортекстов с использованием морфологическогоанализа и нейро-семантических сетейСпециальность 05.13.15 - Вычислительные машины, комплексы икомпьютерные сети - по техническим наукамДиссертация на соискание ученой степеникандидата технических наукНаучный руководитель: профессор, д.т.н. Галушкин Александр ИвановичНаучный руководитель: д.т.н. Харламов Александр АлександровичМосква20171ОглавлениеВведение6Глава 1: Критический анализ существующих методов представления и классификации текстов1.1 Методы представления текстов .

. . . . . . . . . . . . . . . . . . .1.1.1 Статистический метод TF-IDF . . . . . . . . . . . . . . . .1.1.2 Векторное представление слов . . . . . . . . . . . . . . . .1.2 Байесовский метод для классификации текстов . . . . . . .

. . . .1.3 Метод Роччио . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.4 Метод «К» ближайших соседей . . . . . . . . . . . . . . . . . . . .1.5 Метод опорных векторов . . . . . . . . . . . . . . . . . . . . . . .1.6 Логистическая регрессия . . . . . . . . . . . .

. . . . . . . . . . .1.6.1 Бинарная логистическая регрессия . . . . . . . . . . . . . .1.6.2 Мультиномиальная логистическая регрессия - Softmax . .1.7 EM-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.7.1 Функция правдоподобия . . . . . . . . . . . . . . . . . . . .1.7.2 EM-алгоритм . . . . . . . . . . .

. . . . . . . . . . . . . . .1.8 Скрытая марковская модель . . . . . . . . . . . . . . . . . . . . .1.8.1 Марковская модель . . . . . . . . . . . . . . . . . . . . . . .1.8.2 Скрытая марковская модель . . . . . . . . . . . . . . . . .1.8.3 Алгоритм прямого-обратного хода . . .

. . . . . . . . . . .1.8.4 Алгоритм Витерби . . . . . . . . . . . . . . . . . . . . . . .1.9 Латентно-семантический анализ . . . . . . . . . . . . . . . . . . .1.9.1 Латентно-семантический анализ с использованием нейронной сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2141414151821222428282929303031313434364244.....4648515254Глава 2: Анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификациитекстов2.1 Многослойные нейронные сети . .

. . . . . . . . . . . . . . . . . .2.2 Метод обратного распространения ошибки . . . . . . . . . . . . .2.3 Метод стохастического градиента . . . . . . . . . . . . . . . . . .2.4 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.4.1 Скрытые признаки и глубинное обучение . . .

. . . . . . .2.4.2 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5 Свёрточная нейронная сеть . . . . . . . . . . . . . . . . . . . . . .2.5.1 Свёртка . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5.2 Субдискретизация . . . . . . . . . . . . . . . . . . . . .

. .2.5.3 Обучение свёрточной нейронной сети . . . . . . . . . . . .2.5.4 Преимущества свёрточной нейронной сети . . . . . . . . .2.6 Рекуррентная нейронная сеть . . . . . . . . . . . . . . . . . . . . .2.6.1 Long Short-Term Memory . . . . . . . . . . . . . . . . . . .2.7 Выводы . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .5659626464656670717272747576781.101.111.121.131.9.2 Вероятностный латентно-семантический анализ . .Рекурсивный автоэнкодер . . . . . . . . . . . . . . . . . . .Свёрточные нейронные сети для классификации текстов .Рекуррентные нейронные сети для классификации текстовВыводы . .

. . . . . . . . . . . . . . . . . . . . . . . . . . ................Глава 3: Математическое и алгоритмическое обеспечение вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей3.1 Разработка метода морфологического анализа текстов . . . . . .3.1.1 Структура морфологического словаря . . . . . . . . .

. . .3.1.2 Морфологический разбор . . . . . . . . . . . . . . . . . . .3.1.3 Разрешение морфологической многозначности . . . . . . .3.2 Разработка математического и алгоритмитического обеспечениявычислительного комплекса семантической нейронной сети . . . .38081848586883.3 Разработка математического и алгоритмитического обеспечениявычислительного комплекса рекурсивного автоэнкодера морфологического анализа . . . . . . .

. . . . . . . . . . . . . . . . . . . . 933.4 Разработка метода «К» ближайших соседей с использованием двоичного дерева . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 973.5 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Глава 4: Экспериментальное исследование вычислительного комплексаклассификатора текстов1014.1 Разработка программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейро-семантических сетей . . . . . . . . . . . . .

. . . . . 1014.2 Эксперименты и оценка результатов . . . . . . . . . . . . . . . . . 1074.2.1 Метод оценки результатов экспериментов . . . . . . . . . . 1074.2.2 Экспериментальное исследование нейро-семантической сети на основе морфологического анализа . . . . . . . . . . . 1084.2.3 Экспериментальное исследование рекурсивного автоэнкодера морфологического анализа .

. . . . . . . . . . . . . . 1104.2.4 Экспериментальное исследование алгоритма «К» ближайших соседей с использованием двоичного дерева . . . . . . 1124.3 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Заключение114Список литературы115Приложения134Приложение 1. Русские морфологические характеристики OpenCorpora 134Приложение 2.

Английские морфологические характеристики PennTreeBank138Приложение 3. Demo морфологического анализа и классификации текстов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Приложение 4. Пример технического задания классификации эмоциональной окраски отзывов пользователей . . . . . . .

. . . . . . . . 1414Приложение 5. Патент на изобретение голосовой связи на естественномязыке между человеком и устройством . . . . . . . . . . . . . . . 143Приложение 6. Акты о внедрении в практические разработки . . . . . 1455ВведениеАктуальность темы диссертацииОбработка естественного языка [1] является одним из самых важных технологий информационной эпохи. Понимание языков является также важнейшимэлементом искусственного интеллекта [2].

Приложения обработки естественногоязыка есть везде, потому что люди общаются все на языке: веб-поиск, рекламы,электронная почта, обслуживание клиентов, перевод языка, и т. д. [3] Существует большое разнообразие базовых задач и моделей машинного обучения дляреализации приложений обработки естественного языка. В последнее время, методы глубокого обучения с применением искусственных нейронных сетей получили очень хорошие результаты для различных задач обработки естественногоязыка [4].

Эти модели часто могут быть обучены с помощью разных наборовданных и не требуют традиционные решения конкретных задач [5].Классификация текстов [6] — одна из главных задач обработки естественного языка, заключающаяся в определении категории текста, список категорийможет быть известен или нет [7].

Классификация текстов часто реализуется наосновании содержания текстов, анализа элементов текста (слова, предложенияи т.п.) и взаимодействия между ними [8]. Классификация может осуществляться вручную или автоматически с применением методов машинного обучения[9]. Современные методы классификации текстов требуют огромных баз данныхдля обучения, и способны изучать и классифицировать семантические значениятекстов [10].С развитием компьютерных технологий появились требования к созданиюинтеллектуальных систем, которые способны решать творческие задачи без участия человека [11]. Спустя полвека, технология машинное обучение, в том числеобработка естественных языков и классификация текстов еще далеки от совершенства [12].Для классификации данных интернет-ресурсов требуются современные алгоритмы, способные не только обработать огромное количество информации, нои решать задачи, которые несколько лет назад решали полностью вручную [13]:1.

Разделение сайтов по тематическим каталогам [14]62. Борьба со спамом [15]3. Распознавание эмоциональной окраски текстов [16]4. Персонификация рекламы [17]и т.п.Российские и иностранные ученые и исследователи, такие как Л. Л. Иомдин[18], А. И. Галушкин [19], А. А. Харламов [9], В. О. Толчеев [20], М. В. Киселев[21], Д. О. Жуков [22], В.

Я. Цветков [23], А. О. Казенников [24], A. Ng [25], D.Jurafsky [26], J. H. Martin [26], C. D. Manning [3], R. Socher [27], T. Mikolov [28],внесли значительный вклад в развитие теории информационных систем, методов информационного поиска, методов классификации и кластеризации текстов,методов синтаксического анализа и извлечения знаний из текстов.

Активно ведут работы в этих направлениях такие организации, как Институт Проблем Передачи Информации РАН, Институт системного анализа РАН, Яндекс, Mail.ru,ABBYY, Google, Facebook, Microsoft.В диссертационной работе, на основе критического анализа существующихметодов классификации текстов гипотезируется, что создание вычислительногокомплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей может обеспечить высокое качество и быстродействие обработки и классификации текстов.Цель и задачи исследованияЦелью диссертации является разработка математического, алгоритмитического и программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейросемантических сетей.Для достижения этой цели в диссертационной работе сформулированы следующие задачи :1.

Проведение критического анализа существующих методов представленияи классификации текстов.2. Проведение анализа методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов3. Разработка метода морфологического анализа текстов.74. Разработка математического и программного обеспечения вычислительного комплекса семантической нейронной сети для получения векторного представления грамматических структур текстов.5.

Разработка алгоритмитического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера морфологического анализа дляполучения векторного представления текстов.6. Разработка метода «К» ближайших соседей с использованием двоичногодерева.7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплексадля морфологического анализа и классификации текстов.8. Внедрение результатов и научных положений диссертации в практическиеразработки.Объектом исследования диссертации является вычислительный комплекс морфологического анализа и классификации текстов.Предмет исследования определен паспортом специальности 05.13.15,областями исследования: №2 - «Теоретический анализ и экспериментальное исследование функционирования вычислительных комплексов с целью улучшенияих технико-экономических и эксплуатационных характеристик» и №3 - «Разработка научных методов и алгоритмов организации специальной обработки данных, хранения и ввода-вывода информации», а также перечнем задач, решаемыхв диссертации.Научная новизна работы состоит в следующем:1.

Характеристики

Тип файла

PDF-файл

Размер

2,46 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

РТУ МИРЭА

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

vychislitelnyy-kompleks-klassifikator-tekstov-s-ispolzovaniem-morfologicheskogo-analiza-i-neyro-semanticheskih-setey-1391553971-1516276506.rar

Документы

Заключение диссертационного совета.pdf

Заключение организации, где выполнялась работа.pdf

Отзыв ведущей организации.pdf

Отзыв второго оппонента.pdf

Отзыв на автореферат 1.pdf

Отзыв на автореферат 2.pdf

Отзыв на автореферат 3.pdf

Отзыв на автореферат 4.pdf

Отзыв на автореферат 5.pdf

Отзыв на автореферат 6.pdf

Отзыв научного руководителя.pdf

Отзыв первого оппонента.pdf

Протокол о принятии диссертации.pdf

Протокол о рассмотрении диссертации.pdf

Решение диссертационного совета по результатам защиты диссертации.pdf

Сведения о ведущей организации.pdf

Сведения о втором оппоненте.pdf

Сведения о первом оппоненте.pdf

Список членов диссертационного совета, присутствовавших на заседании при защите диссертации.pdf

Автореферат.pdf

Диссертация.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.