Автореферат (1090482), страница 3
Текст из файла (страница 3)
Для быстрого поиска idтекста, сортируем координаты этих текстов по этому термину по возрастанию. Дляпоиска ближайшего значения к x на X (t ) = [(id1 , x1 ), (id 2 , x2 )...(id m , xm )] используетсяметод двоичного поиска.Подход 3: Использование двоичного дерева для каждого текста будем хранитьего ближайшие соседи в двоичном дереве, корень которой есть самый ближайшийсосед.В четвертой главе представлены разработка программного обеспечениявычислительногокомплекса-классификаторатекстовсиспользованиемморфологического анализа и нейро-семантических сетей, эксперименты и оценкарезультатов.По результатам диссертационного исследования было разработано программноеобеспечение вычислительного комплекса-классификатора текстов на языкахпрограмирования C++ и Python с использованием библиотеки машинного обученияTensorFlow от компании Google.15Рис.
4: Типичная структура морфологического анализатора [5].Разработанный программный комплекс реализует следующие функции:1. Морфологический анализ текстов.2. Обучения классификации текстов по обучаемой выборке.3. Классификация текстов по категориям.16Рис. 5: Типичная структура вычислительного комплекса-классификатора текстов [5].17Нейро-семантическая сеть на основе морфологического анализа:Рис. 6: Нейро-семантическая сеть на основе морфологического анализа.18Рекурсивный автоэнкодер морфологического анализа:Рис. 7: Рекурсивный автоэнкодер морфологического анализа.Для оценки алгоритмов был использован метод K-Fold Cross-validation спараметром K = 10. В качестве экспериментальной базы использованы базы MovieReview и Wikinews на русском и английском языках.
Обучающая выборка MovieReview состоит из 10662 текстов по двум категориям (позитивной и негативной).Обучающая выборка Wikinews-Ru состоит из 7233 текстов - новостей на русскомязыке, её количество категорий равно 8. Обучающая выборка Wikinews-En состоит из23588 текстов - новостей на английском языке, её количество категорий равно 11.Нейро-семантическая сеть на основе морфологического анализа - MNSNКлассификация базы данных Movie Review:МетодRAE (Socher et al., 2011)MV-RNN (Socher et al., 2012)CNN-randCNN-staticCNN-non-staticCNN-multichannelMNSNMovieReview77.779.076.181.081.581.179.319Классификация баз данных Wikinews:МетодWikinews-RuNaive Bayes66.4Nearest Centroid68.6KNN72.5KNN с двоичным71.7деревомMNSN75.2Wikinews-En81.186.387.388.991.3Рекурсивный автоэнкодер морфологического анализа (MRAE):Классификация базы данных Movie Review:МетодRAE (Socher et al., 2011)MV-RNN (Socher et al., 2012)CNN-randCNN-staticCNN-non-staticCNN-multichannelMRAEMovieReview77.779.076.181.081.581.180.6Классификация баз данных Wikinews:МетодNaive BayesNearest CentroidKNNKNN с двоичным деревомMRAEWikinews-Ru66.468.672.571.774.3Wikinews-En81.186.387.388.990.220Рис.
8: Точность классификации базы Wikinews-En рекурсивным автоэнкодеромморфологического анализа в зависимости от взвешенного параметра для ошибокобъединений слов и морфологических разборов [5].Скорость и точность алгоритма «К» ближайших соседей с использованиемдвоичного дерева и без него[3]:Корпус и алгоритм*Wikinews-En*Wikinews-RuKNNKNN сдеревомKNNKNN сдеревомВремятестирования(с)48257двоичным 13795Точность(%)9168двоичным 486672.571.787.388.9В заключении приведены основные результаты диссертационной работы.В приложения содержат таблицы морфологических признаков, демо, примертехнического задания классификации эмоциональной окраски отзывов пользователей,патент на изобретение голосовой связи на естественном языке между человеком иустройством и акты о внедрении в практические разработки.21Demo - приложениеРис. 9: Demo - Морфологический анализ.Рис.
10: Demo - Классификация.Получен патент RU 2583150 на изобретение «Голосовая связь на естественномязыке между человеком и устройством»[13], которое относится к областичеловеко-машинного взаимодействия, а именно к голосовой связи на естественномязыке между человеком и устройством. Технический результат состоит в обеспечении22обработки пользовательских голосовых вводов на морфологически богатых языках безвычислительно затратных операций, связанных с большим количеством применимыхправил.Рис. 11: Голосовая связь на естественном языке [13].Получены акты об использовании результатов диссертационного исследования втехнологиях научно-производственного инновационного центра МИКРОСИСТЕМЫ иИнститута Военных Автоматизированных Технологий, Академия Военных Наук иТехнологий, Министерство Обороны Вьетнама.Основные результаты выносимые на защиту:1.
Проведен критический анализ существующих методов представления иклассификации текстов.2. Проведен анализ методов глубокого обучения посредством искусственных23нейронных сетей для обработки и классификации текстов.3. Разработан метод морфологического анализа для предварительной обработкитекстов, позволяющий методом развитых словоформ выделять морфологическиепризнаки слов для последующей классификации.4. Разработаны математическое и программное обеспечения вычислительногокомплекса нейро-семантической сети для определения адекватного векторногопредставления грамматических структур текстов, который позволяет повышатьточность классификации текстов на 5-12% по сравнению с другими методамиклассификации.5.
Разработаны алгоритмическое и программное обеспечения вычислительногокомплексарекурсивногоавтоэнкодерасобъединиемвекторов-словивекторов-морфологий, который позволяет повышать точность классификации текстовна 7-13% по сравнению с другими методами классификации.6. Разработаны метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяетувеличить скорость классификации текстов в 2-4 раза.7. Разработаны архитектура сервер-клиент и веб-интерфейс демо комплекса дляморфологического анализа и классификации текстов.8.
Внедрение полученных в диссертации результатов в пратические разработки.24СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ:В изданиях, входящих в перечень ВАК при Минобрнауки России:1. Ле Мань Ха. Прогнозирование настроения человека по анализу текста //Информатизация и связь. 2012. No 8. С.97-982. Нгуен Нгок Зиеп, Ле Мань Ха. Нейросетевой метод снятия омонимии // ТрудыМФТИ.
2015. Т.7, No 3. С.174-1823. Ле Мань Ха Оптимизация алгоритма KNN для классификации текстов //Труды МФТИ. 2015. Т. 7, No 3. С. 92–94.4. Ле Мань Ха. Свёрточная нейронная сеть для решения задачи классификации //Труды МФТИ. 2016. Т.8, No 3. С.91–97.5. А. А. Харламов, Ле Мань Ха.
Нейросетевые подходы к классификации текстовна основе морфологического анализа // Труды МФТИ. 2017. Т. 9, No 2. С. 143–150.В других изданиях:6. Ле Мань Ха - Прогнозирование настроения человека по анализу текста - 55-янаучная конференция МФТИ 11/20127. Ле Мань Ха - Прогнозирование настроения человека по анализу текста - XIВсероссийская научная конференция «Нейрокомпьютеры и их применение» 3/20138. Le Manh Ha - Sentiment Estimation - Международная конференция"Инжиниринг и Телекоммуникации - EnT 11/2014"9. Ле Мань Ха - Спам-фильтр с использованием метода опорных векторов - 57-янаучная конференция МФТИ 11/201410. Ле Мань Ха - Классификация текстов с использованием метода опорныхвекторов - XIII Всероссийская научная конференция «Нейрокомпьютеры и ихприменение» 3/201511.
Ле Мань Ха - Алгоритм KNN для классификации текстов и его оптимизация XIV Всероссийская научная конференция «Нейрокомпьютеры и их применение»3/201612. Ле Мань Ха - Нейросетевые подходы к классификации текстов на основеморфологического разбора- XV Всероссийская научная конференция«Нейрокомпьютеры и их применение» 3/201713. Романенко А. А., Кудинов М. С., Ле М. Х., Пионтковская И. И., Музычка С.А. Голосовая связь на естественном языке между человеком и устройством, патент RU2583150, 2016..















