Главная » Просмотр файлов » Автореферат

Автореферат (1090482), страница 3

Файл №1090482 Автореферат (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) 3 страницаАвтореферат (1090482) страница 32018-01-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Для быстрого поиска idтекста, сортируем координаты этих текстов по этому термину по возрастанию. Дляпоиска ближайшего значения к x на X (t ) = [(id1 , x1 ), (id 2 , x2 )...(id m , xm )] используетсяметод двоичного поиска.Подход 3: Использование двоичного дерева для каждого текста будем хранитьего ближайшие соседи в двоичном дереве, корень которой есть самый ближайшийсосед.В четвертой главе представлены разработка программного обеспечениявычислительногокомплекса-классификаторатекстовсиспользованиемморфологического анализа и нейро-семантических сетей, эксперименты и оценкарезультатов.По результатам диссертационного исследования было разработано программноеобеспечение вычислительного комплекса-классификатора текстов на языкахпрограмирования C++ и Python с использованием библиотеки машинного обученияTensorFlow от компании Google.15Рис.

4: Типичная структура морфологического анализатора [5].Разработанный программный комплекс реализует следующие функции:1. Морфологический анализ текстов.2. Обучения классификации текстов по обучаемой выборке.3. Классификация текстов по категориям.16Рис. 5: Типичная структура вычислительного комплекса-классификатора текстов [5].17Нейро-семантическая сеть на основе морфологического анализа:Рис. 6: Нейро-семантическая сеть на основе морфологического анализа.18Рекурсивный автоэнкодер морфологического анализа:Рис. 7: Рекурсивный автоэнкодер морфологического анализа.Для оценки алгоритмов был использован метод K-Fold Cross-validation спараметром K = 10. В качестве экспериментальной базы использованы базы MovieReview и Wikinews на русском и английском языках.

Обучающая выборка MovieReview состоит из 10662 текстов по двум категориям (позитивной и негативной).Обучающая выборка Wikinews-Ru состоит из 7233 текстов - новостей на русскомязыке, её количество категорий равно 8. Обучающая выборка Wikinews-En состоит из23588 текстов - новостей на английском языке, её количество категорий равно 11.Нейро-семантическая сеть на основе морфологического анализа - MNSNКлассификация базы данных Movie Review:МетодRAE (Socher et al., 2011)MV-RNN (Socher et al., 2012)CNN-randCNN-staticCNN-non-staticCNN-multichannelMNSNMovieReview77.779.076.181.081.581.179.319Классификация баз данных Wikinews:МетодWikinews-RuNaive Bayes66.4Nearest Centroid68.6KNN72.5KNN с двоичным71.7деревомMNSN75.2Wikinews-En81.186.387.388.991.3Рекурсивный автоэнкодер морфологического анализа (MRAE):Классификация базы данных Movie Review:МетодRAE (Socher et al., 2011)MV-RNN (Socher et al., 2012)CNN-randCNN-staticCNN-non-staticCNN-multichannelMRAEMovieReview77.779.076.181.081.581.180.6Классификация баз данных Wikinews:МетодNaive BayesNearest CentroidKNNKNN с двоичным деревомMRAEWikinews-Ru66.468.672.571.774.3Wikinews-En81.186.387.388.990.220Рис.

8: Точность классификации базы Wikinews-En рекурсивным автоэнкодеромморфологического анализа в зависимости от взвешенного параметра  для ошибокобъединений слов и морфологических разборов [5].Скорость и точность алгоритма «К» ближайших соседей с использованиемдвоичного дерева и без него[3]:Корпус и алгоритм*Wikinews-En*Wikinews-RuKNNKNN сдеревомKNNKNN сдеревомВремятестирования(с)48257двоичным 13795Точность(%)9168двоичным 486672.571.787.388.9В заключении приведены основные результаты диссертационной работы.В приложения содержат таблицы морфологических признаков, демо, примертехнического задания классификации эмоциональной окраски отзывов пользователей,патент на изобретение голосовой связи на естественном языке между человеком иустройством и акты о внедрении в практические разработки.21Demo - приложениеРис. 9: Demo - Морфологический анализ.Рис.

10: Demo - Классификация.Получен патент RU 2583150 на изобретение «Голосовая связь на естественномязыке между человеком и устройством»[13], которое относится к областичеловеко-машинного взаимодействия, а именно к голосовой связи на естественномязыке между человеком и устройством. Технический результат состоит в обеспечении22обработки пользовательских голосовых вводов на морфологически богатых языках безвычислительно затратных операций, связанных с большим количеством применимыхправил.Рис. 11: Голосовая связь на естественном языке [13].Получены акты об использовании результатов диссертационного исследования втехнологиях научно-производственного инновационного центра МИКРОСИСТЕМЫ иИнститута Военных Автоматизированных Технологий, Академия Военных Наук иТехнологий, Министерство Обороны Вьетнама.Основные результаты выносимые на защиту:1.

Проведен критический анализ существующих методов представления иклассификации текстов.2. Проведен анализ методов глубокого обучения посредством искусственных23нейронных сетей для обработки и классификации текстов.3. Разработан метод морфологического анализа для предварительной обработкитекстов, позволяющий методом развитых словоформ выделять морфологическиепризнаки слов для последующей классификации.4. Разработаны математическое и программное обеспечения вычислительногокомплекса нейро-семантической сети для определения адекватного векторногопредставления грамматических структур текстов, который позволяет повышатьточность классификации текстов на 5-12% по сравнению с другими методамиклассификации.5.

Разработаны алгоритмическое и программное обеспечения вычислительногокомплексарекурсивногоавтоэнкодерасобъединиемвекторов-словивекторов-морфологий, который позволяет повышать точность классификации текстовна 7-13% по сравнению с другими методами классификации.6. Разработаны метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяетувеличить скорость классификации текстов в 2-4 раза.7. Разработаны архитектура сервер-клиент и веб-интерфейс демо комплекса дляморфологического анализа и классификации текстов.8.

Внедрение полученных в диссертации результатов в пратические разработки.24СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ:В изданиях, входящих в перечень ВАК при Минобрнауки России:1. Ле Мань Ха. Прогнозирование настроения человека по анализу текста //Информатизация и связь. 2012. No 8. С.97-982. Нгуен Нгок Зиеп, Ле Мань Ха. Нейросетевой метод снятия омонимии // ТрудыМФТИ.

2015. Т.7, No 3. С.174-1823. Ле Мань Ха Оптимизация алгоритма KNN для классификации текстов //Труды МФТИ. 2015. Т. 7, No 3. С. 92–94.4. Ле Мань Ха. Свёрточная нейронная сеть для решения задачи классификации //Труды МФТИ. 2016. Т.8, No 3. С.91–97.5. А. А. Харламов, Ле Мань Ха.

Нейросетевые подходы к классификации текстовна основе морфологического анализа // Труды МФТИ. 2017. Т. 9, No 2. С. 143–150.В других изданиях:6. Ле Мань Ха - Прогнозирование настроения человека по анализу текста - 55-янаучная конференция МФТИ 11/20127. Ле Мань Ха - Прогнозирование настроения человека по анализу текста - XIВсероссийская научная конференция «Нейрокомпьютеры и их применение» 3/20138. Le Manh Ha - Sentiment Estimation - Международная конференция"Инжиниринг и Телекоммуникации - EnT 11/2014"9. Ле Мань Ха - Спам-фильтр с использованием метода опорных векторов - 57-янаучная конференция МФТИ 11/201410. Ле Мань Ха - Классификация текстов с использованием метода опорныхвекторов - XIII Всероссийская научная конференция «Нейрокомпьютеры и ихприменение» 3/201511.

Ле Мань Ха - Алгоритм KNN для классификации текстов и его оптимизация XIV Всероссийская научная конференция «Нейрокомпьютеры и их применение»3/201612. Ле Мань Ха - Нейросетевые подходы к классификации текстов на основеморфологического разбора- XV Всероссийская научная конференция«Нейрокомпьютеры и их применение» 3/201713. Романенко А. А., Кудинов М. С., Ле М. Х., Пионтковская И. И., Музычка С.А. Голосовая связь на естественном языке между человеком и устройством, патент RU2583150, 2016..

Характеристики

Список файлов диссертации

Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей
Документы
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7021
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее