Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)

PDF-файл Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) Технические науки (19371): Диссертация - Аспирантура и докторантураДиссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) - PDF (19371) - Сту2018-01-18СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей". PDF-файл из архива "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

Федеральное Государственное Образовательное УчреждениеВысшего Профессионального Образования«Московский Физико-Технический Институт(Государственный Университет)»На правах рукописиЛе Мань ХаВычислительный комплекс-классификатортекстов с использованием морфологическогоанализа и нейро-семантических сетейСпециальность 05.13.15 - Вычислительные машины, комплексы икомпьютерные сети - по техническим наукамДиссертация на соискание ученой степеникандидата технических наукНаучный руководитель: профессор, д.т.н. Галушкин Александр ИвановичНаучный руководитель: д.т.н. Харламов Александр АлександровичМосква20171ОглавлениеВведение6Глава 1: Критический анализ существующих методов представления и классификации текстов1.1 Методы представления текстов .

. . . . . . . . . . . . . . . . . . .1.1.1 Статистический метод TF-IDF . . . . . . . . . . . . . . . .1.1.2 Векторное представление слов . . . . . . . . . . . . . . . .1.2 Байесовский метод для классификации текстов . . . . . . .

. . . .1.3 Метод Роччио . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.4 Метод «К» ближайших соседей . . . . . . . . . . . . . . . . . . . .1.5 Метод опорных векторов . . . . . . . . . . . . . . . . . . . . . . .1.6 Логистическая регрессия . . . . . . . . . . . .

. . . . . . . . . . .1.6.1 Бинарная логистическая регрессия . . . . . . . . . . . . . .1.6.2 Мультиномиальная логистическая регрессия - Softmax . .1.7 EM-алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.7.1 Функция правдоподобия . . . . . . . . . . . . . . . . . . . .1.7.2 EM-алгоритм . . . . . . . . . . .

. . . . . . . . . . . . . . .1.8 Скрытая марковская модель . . . . . . . . . . . . . . . . . . . . .1.8.1 Марковская модель . . . . . . . . . . . . . . . . . . . . . . .1.8.2 Скрытая марковская модель . . . . . . . . . . . . . . . . .1.8.3 Алгоритм прямого-обратного хода . . .

. . . . . . . . . . .1.8.4 Алгоритм Витерби . . . . . . . . . . . . . . . . . . . . . . .1.9 Латентно-семантический анализ . . . . . . . . . . . . . . . . . . .1.9.1 Латентно-семантический анализ с использованием нейронной сети . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2141414151821222428282929303031313434364244.....4648515254Глава 2: Анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификациитекстов2.1 Многослойные нейронные сети . .

. . . . . . . . . . . . . . . . . .2.2 Метод обратного распространения ошибки . . . . . . . . . . . . .2.3 Метод стохастического градиента . . . . . . . . . . . . . . . . . .2.4 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.4.1 Скрытые признаки и глубинное обучение . . .

. . . . . . .2.4.2 Автоэнкодер . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5 Свёрточная нейронная сеть . . . . . . . . . . . . . . . . . . . . . .2.5.1 Свёртка . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.5.2 Субдискретизация . . . . . . . . . . . . . . . . . . . . .

. .2.5.3 Обучение свёрточной нейронной сети . . . . . . . . . . . .2.5.4 Преимущества свёрточной нейронной сети . . . . . . . . .2.6 Рекуррентная нейронная сеть . . . . . . . . . . . . . . . . . . . . .2.6.1 Long Short-Term Memory . . . . . . . . . . . . . . . . . . .2.7 Выводы . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .5659626464656670717272747576781.101.111.121.131.9.2 Вероятностный латентно-семантический анализ . .Рекурсивный автоэнкодер . . . . . . . . . . . . . . . . . . .Свёрточные нейронные сети для классификации текстов .Рекуррентные нейронные сети для классификации текстовВыводы . .

. . . . . . . . . . . . . . . . . . . . . . . . . . ................Глава 3: Математическое и алгоритмическое обеспечение вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей3.1 Разработка метода морфологического анализа текстов . . . . . .3.1.1 Структура морфологического словаря . . . . . . . . .

. . .3.1.2 Морфологический разбор . . . . . . . . . . . . . . . . . . .3.1.3 Разрешение морфологической многозначности . . . . . . .3.2 Разработка математического и алгоритмитического обеспечениявычислительного комплекса семантической нейронной сети . . . .38081848586883.3 Разработка математического и алгоритмитического обеспечениявычислительного комплекса рекурсивного автоэнкодера морфологического анализа . . . . . . .

. . . . . . . . . . . . . . . . . . . . 933.4 Разработка метода «К» ближайших соседей с использованием двоичного дерева . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 973.5 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Глава 4: Экспериментальное исследование вычислительного комплексаклассификатора текстов1014.1 Разработка программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейро-семантических сетей . . . . . . . . . . . . .

. . . . . 1014.2 Эксперименты и оценка результатов . . . . . . . . . . . . . . . . . 1074.2.1 Метод оценки результатов экспериментов . . . . . . . . . . 1074.2.2 Экспериментальное исследование нейро-семантической сети на основе морфологического анализа . . . . . . . . . . . 1084.2.3 Экспериментальное исследование рекурсивного автоэнкодера морфологического анализа .

. . . . . . . . . . . . . . 1104.2.4 Экспериментальное исследование алгоритма «К» ближайших соседей с использованием двоичного дерева . . . . . . 1124.3 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Заключение114Список литературы115Приложения134Приложение 1. Русские морфологические характеристики OpenCorpora 134Приложение 2.

Английские морфологические характеристики PennTreeBank138Приложение 3. Demo морфологического анализа и классификации текстов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Приложение 4. Пример технического задания классификации эмоциональной окраски отзывов пользователей . . . . . . .

. . . . . . . . 1414Приложение 5. Патент на изобретение голосовой связи на естественномязыке между человеком и устройством . . . . . . . . . . . . . . . 143Приложение 6. Акты о внедрении в практические разработки . . . . . 1455ВведениеАктуальность темы диссертацииОбработка естественного языка [1] является одним из самых важных технологий информационной эпохи. Понимание языков является также важнейшимэлементом искусственного интеллекта [2].

Приложения обработки естественногоязыка есть везде, потому что люди общаются все на языке: веб-поиск, рекламы,электронная почта, обслуживание клиентов, перевод языка, и т. д. [3] Существует большое разнообразие базовых задач и моделей машинного обучения дляреализации приложений обработки естественного языка. В последнее время, методы глубокого обучения с применением искусственных нейронных сетей получили очень хорошие результаты для различных задач обработки естественногоязыка [4].

Эти модели часто могут быть обучены с помощью разных наборовданных и не требуют традиционные решения конкретных задач [5].Классификация текстов [6] — одна из главных задач обработки естественного языка, заключающаяся в определении категории текста, список категорийможет быть известен или нет [7].

Классификация текстов часто реализуется наосновании содержания текстов, анализа элементов текста (слова, предложенияи т.п.) и взаимодействия между ними [8]. Классификация может осуществляться вручную или автоматически с применением методов машинного обучения[9]. Современные методы классификации текстов требуют огромных баз данныхдля обучения, и способны изучать и классифицировать семантические значениятекстов [10].С развитием компьютерных технологий появились требования к созданиюинтеллектуальных систем, которые способны решать творческие задачи без участия человека [11]. Спустя полвека, технология машинное обучение, в том числеобработка естественных языков и классификация текстов еще далеки от совершенства [12].Для классификации данных интернет-ресурсов требуются современные алгоритмы, способные не только обработать огромное количество информации, нои решать задачи, которые несколько лет назад решали полностью вручную [13]:1.

Разделение сайтов по тематическим каталогам [14]62. Борьба со спамом [15]3. Распознавание эмоциональной окраски текстов [16]4. Персонификация рекламы [17]и т.п.Российские и иностранные ученые и исследователи, такие как Л. Л. Иомдин[18], А. И. Галушкин [19], А. А. Харламов [9], В. О. Толчеев [20], М. В. Киселев[21], Д. О. Жуков [22], В.

Я. Цветков [23], А. О. Казенников [24], A. Ng [25], D.Jurafsky [26], J. H. Martin [26], C. D. Manning [3], R. Socher [27], T. Mikolov [28],внесли значительный вклад в развитие теории информационных систем, методов информационного поиска, методов классификации и кластеризации текстов,методов синтаксического анализа и извлечения знаний из текстов.

Активно ведут работы в этих направлениях такие организации, как Институт Проблем Передачи Информации РАН, Институт системного анализа РАН, Яндекс, Mail.ru,ABBYY, Google, Facebook, Microsoft.В диссертационной работе, на основе критического анализа существующихметодов классификации текстов гипотезируется, что создание вычислительногокомплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей может обеспечить высокое качество и быстродействие обработки и классификации текстов.Цель и задачи исследованияЦелью диссертации является разработка математического, алгоритмитического и программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа и нейросемантических сетей.Для достижения этой цели в диссертационной работе сформулированы следующие задачи :1.

Проведение критического анализа существующих методов представленияи классификации текстов.2. Проведение анализа методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов3. Разработка метода морфологического анализа текстов.74. Разработка математического и программного обеспечения вычислительного комплекса семантической нейронной сети для получения векторного представления грамматических структур текстов.5.

Разработка алгоритмитического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера морфологического анализа дляполучения векторного представления текстов.6. Разработка метода «К» ближайших соседей с использованием двоичногодерева.7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплексадля морфологического анализа и классификации текстов.8. Внедрение результатов и научных положений диссертации в практическиеразработки.Объектом исследования диссертации является вычислительный комплекс морфологического анализа и классификации текстов.Предмет исследования определен паспортом специальности 05.13.15,областями исследования: №2 - «Теоретический анализ и экспериментальное исследование функционирования вычислительных комплексов с целью улучшенияих технико-экономических и эксплуатационных характеристик» и №3 - «Разработка научных методов и алгоритмов организации специальной обработки данных, хранения и ввода-вывода информации», а также перечнем задач, решаемыхв диссертации.Научная новизна работы состоит в следующем:1.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее