Заключение организации, где выполнялась работа (1090447)
Текст из файла
следованиям откам. аричев С. Н. июня 20!7 г. ЗАКЛЮЧКНИК федерального государственного образовательного учреждения Высшего прОфессиОнального ООРЗЗОВания «Московский физико-технический институт !'государственный университет)» 1МФТИ) Диссертация «Вычислительный комплекс-классификатор текстов с использованием морфологического анализа и нейро-семантических сетей» выполнена на кафедре интеллектуальных информационных систем и гехнологий Московского физико-технического института !'государственного университета), Министерства образования и науки Российской Федерации.
В период подготовки диссертации аспирант Ле Мань Ха учился на кафедре интеллектуальных информационных систем и технологий МФТИ. В 2013 г, он окончил магистратуру МФТИ. В октябре 2013 года поступил в аспирантуру МФТИ, Удостоверение о сдаче кандидатских экзаменов выдано в '017 г. в МФТИ. Научный руководитель — д.т.н. Харламов Александр Александрович, основное место работы — Институт Высшей Нервной Деятельности н Нейрофизиологии РАН. По итогам обсуждения диссертации принято следующее заключение Хема диссеригации яетмется июнуал Зной благодаря разработке математического, алгоритмитического и программного обеспечения Вычислительного комплекса-классификатора текстоВ с использОВанием морфологического анализа и нейро-семантических сетей.
Классификация текстов — — одна из главных задач обработки естественного языка, заключающаяся в определении кагегории текста, список категорий может быть известен или нет. Классификация текстов часто реализуется на основании содержания текстов, анализа элементов текста (слова, предложения и т.п.) и взаимодействия между ними. Классификация может осуществляться вручнукз или автоматически с применением методов машинного обучения, Нейросетевые методы классификации текстов на основе морфологического анализа позволяют повышать качество и скорость классификации. Данные методы позволяют автоматизировать решение раличных задач обработки текстовой информации, таких как классификация сайтов по тематическим каталогам„борьба со снамом, распознавание эмоциональной окраски текстов„персонификация рекламы и т.п.
Цели и задачи диссертации: Целью диссертации является разработка математического, алгоритмитического и программного обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей. Для достижения этой цели в диссертационной работе сформулированы следующие задачи: 1.
Проведение критического анализа существующх методов представления н классификации текстов. 2. Проведение анализа методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов 3. Разработка метода морфологического анализа текстов.
4, Разработка математического и программного обеспечения вычислительного комплекса семантической нейронной сети для получения Векторного представления грамматических структур текстоВ, 5, !'азработка алгоритмнтического и программного обеспечения ВычнслнтельнОГО комплекса рекурсиВнОГО ВВтоэнкодера морфОлОГическОГО анализа для получения ВекторнОГО предстаВления ТЕКСТОВ. б. Разраоотка метода нК» ближай1пих соседей с использованием двоичного дерева. 7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплекса для морфологического анализа и классификации текстов.
8, Внедрение результатов и научных положений диссертации В практические разработки. Осиаеиые резкльтаты диссертации: 1, Проведен критический анализ существующих методов представления и классификации текстов. 2, Проведен анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов. 3, Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации. 4. Разработаны математическое и программное обеспечения Вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет повышать точность классификации текстов на 5-12;4 по сравнению с другими методами классификации. 5, Разработаны алгоритмическое и программное обеспечения Вычислительного комплекса рекурсивного автоэнкодера с объеднннем векторов-слов и векторов-морфологий, который позволяет повышать точность классификации текстов на 7-13;4 по сравнению с другими методами классификации.
6. Разработаны метод «К» ближайших соседей с использованием двоичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза, 7. Разработаны архитектура сервер-клиент и веб-интерфейс демо комплекса для морфологического анализа и классификации текстов.
8. Внедрение полученных в диссертации результатов в пратические рйзрйботки. Ниучнил ниашни работы заключается в том, что 1. Разработан метод обработки данных для создания морфологических словйрей. 2. Разработан ~~тол морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации. 3, Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения йдекватного векторного представления грамматических структур текстов, который позволяет повышать точность классификации текстов на 5-12;~~ по сравнению с другими методами классификации. 4.
Разработаны алгоритмитичес кое и программное обеспечения вычислительного комплексй рекурсивного йвтознкодерй с обьединием векторов-слов и векто1зов-морфологий, кото1зый позволяет повышйть точность классификации текстов на 7-13'Ь по сравнению с другими методами классификации. 5. Разработан метод «К» ближайших соседей с использованием двоичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза. ХХринтичесния ценность результатов диссертации заключается в в повышении точности классификации текстов на 5-13»~о по сравнению со другими методами классификации, в повышении скорости классификации текстов в 2-4 раза, так же в возможности применения морфологического анализа и нейронных сетей для решения других задач обработки естественного языка.
Результаты диссертационного исследования были использованы в технолсн иях научно-производственного инновационного центра МИКРОСИСТВМЫ и в исследовании системы голосового управления в Институте Военных Автоматизированных Технологий, Академия Военных Наук и Технологий, Министерство Обороны Вьетнама, что подтверждено актами о внедрении, кроме того автору был выдан патент на изобретение «Голосовая связь на естественном языке между человеком и устройством» (КЬ' 2583150). Обоснованноппь и достоверность рвзулынатов и выводов определяется следующими факторами: 1. Согласованностью теоретических выводов с результатами экспериментов на разных базах данных; 2, Докладами на российских и международных научных конференциях и публикациями результатов исследования в рекомендованных Высшей аттестационной комиссией научных изданиях. 3, Положительными результатами практического использования результатов диссертационной работы, подтвержденными актами о внедр~ иии „ 4.
Патентом на изобретение; Материалы диссврнгииии опубликованы автором доииатвчно полно в следующих работах 1'В изданиях„входя гцих в перечень БАК при Минобрнауки России!: !. Ле Мань Ха. Прогнозирование настроения человека по анализу текста 7 Информатизаиия и связь. 20!2. Жо 8. С 97-98 2. Нгувн Нгок Зиеп, Ле Мань Ха. Нейросетевой метод снятия омонимии 7 Труды МФТИ. 2015. Т. 7, Л'о 3. С!74-182 3. Ле Мань Ха Оптимизация алгоритма КЛ'У для классификации текстов 7' Труды МФТИ. 2015. Т. 7, Л'о 3.
С 92 — 94. 4. Ле Мань Ла. Сверточная нейронная есть для решения задачи клаесифика1!ии 77 !руды МФТИ, 2016. Т.8, Л~о 3. С,9! — 97. 5. А. А. Харламов. Ле Мань Ха, Нейросетевые подходы к клаееификаиии текстов на основе морфологичвского анализа ~У Труды МФТИ. 2017. Т, 9, Ло 2. С. !43-150, Личным вклад соискателя в работах заключается в следующем: 1. Разработка метода обработки данных для создания морфологических словарей. 2. Разработка метода морфологического анализа текстов. 3.
Разработка математического и программного обеспечения вычислительного комплекса нейро-семантической сети на основе морфологических словарей. 4. Разработка алгоритмического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторов-морфологий.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.