Автореферат (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей". PDF-файл из архива "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиЛе Мань ХаВЫЧИСЛИТЕЛЬНЫЙ КОМПЛЕКС- КЛАССИФИКАТОРТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ МОРФОЛОГИЧЕСКОГОАНАЛИЗА И НЕЙРО-СЕМАНТИЧЕСКИХ СЕТЕЙ05.13.15 - Вычислительные машины, комплексы и компьютерные сети - потехническим наукамАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква20172Работа выполнена на кафедре интеллектуальных информационных систем итехнологий Московского Физико-Технического Института (государственногоуниверситета).Галушкин Александр Иванович, доктор технических наук,профессор кафедры «Интеллектуальные информационныесистемы и технологии» Московского Физико-ТехническогоНаучныеИнститута.руководители:Харламов Александр Александрович, доктор техническихнаук, старший научный сотрудник Института Высшей НервнойДеятельности и Нейрофизиологии РАНТолчеев Владимир Олегович, доктор технических наук,Официальныепрофессор, профессор кафедры управления и информатикиоппоненты:федерального государственного бюджетного образовательногоучреждениявысшегообразования«Национальныйисследовательский университет «МЭИ»Киселев Михаил Витальевич, кандидат технических наук,доцент, доцент кафедры актуарной и финансовой математикифакультетаприкладнойматематики,физикииинформационных технологий федерального государственногобюджетногообразовательногоучреждениявысшегообразования «Чувашский государственный университет имениИ.Н.
Ульянова»ВедущаяФедеральный исследовательский центр «Информатика иорганизация:управление» РАНЗащита состоится «7» декабря 2017 г. в 15-00 часов на заседаниидиссертационного совета Д 212.131.05 на базе федерального государственногобюджетного образовательного учреждения высшего образования «Московскийтехнологический университет» по адресу: 119454, г.
Москва, пр. Вернадского, д. 78,ауд. Д217С диссертацией можно ознакомиться в библиотеке Московскоготехнологического университета и на сайте https://mirea.ru/.Автореферат разослан «05» ноября 2017 г.Ученый секретарьдиссертационного советак.т.н, доцентАндрианова Елена Гельевна3ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы диссертацииКлассификация текстов — одна из главных задач обработки естественного языка,заключающаяся в определении категории текста, список категорий может бытьизвестен или нет.
Классификация текстов часто реализуется на основании содержаниятекстов, анализа элементов текста (слова, предложения и т.п.) и взаимодействия междуними. Классификация может осуществляться вручную или автоматически сприменением методов машинного обучения. Современные методы классификациитекстов требуют огромных баз данных для обучения, и способны изучать иклассифицировать семантические значения текстов.С развитием компьютерных технологий появились требования к созданиюинтеллектуальных систем, которые способны решать творческие задачи без участиячеловека.
Спустя полвека, технология машинное обучение, в том числе обработкаестественных языков и классификация текстов еще далеки от совершенства.Для классификации данных интернет-ресурсов требуются современныеалгоритмы, способные не только обработать огромное количество информации, но ирешать задачи, которые несколько лет назад решали полностью вручную: разделениесайтов по тематическим каталогам, борьба со спамом, распознавание эмоциональнойокраски текстов, персонификация рекламы и т.п.Российские и иностранные ученые и исследователи, такие как Л.
Л. Иомдин, А.И. Галушкин, А. А. Харламов, В. М. Хачумов, М. В. Киселев, Д. О. Жуков, В. Я.Цветков, А. О. Казенников, A. Ng, D. Jurafsky, J. H. Martin, C. D. Manning, R. Socher, T.Mikolov, внесли значительный вклад в развитие теории информационных систем,методов информационного поиска, методов классификации и кластеризации текстов,методов синтаксического анализа и извлечения знаний из текстов. Активно ведутработы в этих направлениях такие организации, как Институт Проблем ПередачиИнформации РАН, Институт системного анализа РАН, Яндекс, Mail.ru, ABBYY,Google, Facebook, Microsoft.В диссертационной работе, на основе критического анализа существующихметодов классификации текстов гипотезируется, что создание вычислительногокомплекса-классификатора текстов с использованием морфологического анализа инейро-семантических сетей может обеспечить высокое качество и быстродействиеобработки и классификации текстов.4Цель и задачи исследованияЦелью диссертации является разработка математического, алгоритмитическогои программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа инейро-семантических сетей.Для достижения этой цели в диссертационной работе сформулированыследующие задачи :1.
Проведение критического анализа существующих методов представления иклассификации текстов.2. Проведение анализа методов глубокого обучения посредством искусственныхнейронных сетей для обработки и классификации текстов3. Разработка метода морфологического анализа текстов.4. Разработка математического и программного обеспечения вычислительногокомплекса семантической нейронной сети для получения векторного представленияграмматических структур текстов.5.Разработкаалгоритмитическогоипрограммногообеспечениявычислительного комплекса рекурсивного автоэнкодера морфологического анализадля получения векторного представления текстов.6. Разработка метода «К» ближайших соседей с использованием двоичногодерева.7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплекса дляморфологического анализа и классификации текстов.8. Внедрение результатов и научных положений диссертации в практическиеразработки.Объектом исследования диссертации являетсяморфологического анализа и классификации текстов.вычислительныйкомплексПредмет исследования определен паспортом специальности 05.13.15, областямиисследования: №2 - «Теоретический анализ и экспериментальное исследованиефункционирования вычислительных комплексов с целью улучшения ихтехнико-экономических и эксплуатационных характеристик» и №3 - «Разработканаучных методов и алгоритмов организации специальной обработки данных, храненияи ввода-вывода информации», а также перечнем задач, решаемых в диссертации.Научная новизна работы состоит в следующем:1.
Разработан метод обработки данных для создания морфологических словарей.2. Разработан метод морфологического анализа для предварительной обработкитекстов, позволяющий методом развитых словоформ выделять морфологическиепризнаки слов для последующей классификации.53. Разработаны математическое и программное обеспечения вычислительногокомплекса нейро-семантической сети для определения адекватного векторногопредставления грамматических структур текстов, который позволяет повышатьточность классификации текстов на 5-12% по сравнению с другими методамиклассификации.4.Разработаныалгоритмитическоеипрограммноеобеспечениявычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов ивекторов-морфологий, который позволяет повышать точность классификации текстовна 7-13% по сравнению с другими методами классификации.5.
Разработан метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяетувеличить скорость классификации текстов в 2-4 раза.Практическая значимость полученных результатов состоит в повышении точностиклассификации текстов на 5-13% по сравнению со другими методами классификации,в повышении скорости классификации текстов в 2-4 раза, так же в возможностиприменения морфологического анализа и нейронных сетей для решения других задачобработки естественного языка. Результаты диссертационного исследования былииспользованы в технологиях научно-производственного инновационного центраМИКРОСИСТЕМЫ и в исследовании системы голосового управления в ИнститутеВоенных Автоматизированных Технологий, Академия Военных Наук и Технологий,Министерство Обороны Вьетнама, что подтверждено актами о внедрении, кроме тогоавтору был выдан патент на изобретение «Голосовая связь на естественном языкемежду человеком и устройством» (RU 2583150) [13].Обоснованность и достоверность результатов и выводов определяетсяследующими факторами:• Согласованностью теоретических выводов с результатами экспериментов наразных базах данных;• Докладами на российских и международных научных конференциях ипубликациями результатов исследования в рекомендованных Высшей аттестационнойкомиссией научных изданиях.• Положительными результатами практического использования результатовдиссертационной работы, подтвержденными актами о внедрении;• Патентом на изобретение;Личный вклад соискателя в работах заключается в следующем:1.
Разработка метода обработки данных для создания морфологическихсловарей.2. Разработка метода морфологического анализа текстов.63. Разработка математического и программного обеспечения вычислительногокомплекса нейро-семантической сети на основе морфологических словарей.4. Разработка алгоритмического и программного обеспечения вычислительногокомплексарекурсивногоавтоэнкодерасобъединиемвекторов-словивекторов-морфологий.5. Разработка метода «К» ближайших соседей с использованием двоичногодерева.Основные результаты по теме диссертационной работы получены авторомсамостоятельно [1, 3, 4, 6, 7, 8, 9, 10, 11, 12], совместно с научным руководителем иколлегами [2, 5, 13].Апробация результатов работыОсновное содержание работы докладывалось на 55-ой и 57-ой научныхконференциях МФТИ 2012 и 2014г., XI, XIII, XIV и XV Всероссийских научныхконференциях «Нейрокомпьютеры и их применение» 2013, 2015, 2016 и 2017г. а такжена международной конференции «Инжиниринг и Телекоммуникации - EnT 11/2014».Публикации автора по теме диссертацииПо теме диссертации опубликовано 12 статьей в журналах и докладов наконференциях, 5 из них в списке научных изданий, зарегистрированных в Высшейаттестационной комиссией Минобрнауки России, которые рекомендуемые дляопубликования основных научных результатов исследований на соискание ученойстепени кандидата наук.Структура и объём работыДанная диссертационная работа состоит из титульного листа, оглавления,введения, пяти глав, заключения, списка литературы и приложений.
Объемдиссертации составляет 148 страниц формата A4, 46 рисунков и 11 таблиц. Списоклитературы включает 182 наименований.7СОДЕРЖАНИЕ РАБОТЫВо введении обоснована актуальность темы диссертации, определены её цель и задачи,сформулированы научная новизна и практическая значимость полученных результатови приведено краткое содержание диссертации по главам.В первой главе диссертации проведен критический анализ существующих методовпредставления и классификации текстов: TF-IDF, word2vec, GloVe и основныеклассификации методы текстов: метод Байеса, метод Роччио, метод «К» ближайшихсоседей, метод опорных векторов, мультиномиальная логистическая регрессия(Softmax), рекурсивный автоэнкодер, свёрточная нейронная сеть, рекуррентнаянейронная сеть.Вторая глава посвящен анализ методов глубокого обучения посредствомискусственных нейронных сетей для обработки и классификации текстов. Былирассмотрены многослойная нейронная сеть, метод обратного распространения ошибкидля обучения нейронных сетей, автоэнкодер, свёрточная нейронная сеть ирекуррентная нейронная сеть.Третьяглавасодержитрезультатыразработкивычислительногокомплекс-классификатора текстов с использованием морфологического анализа инейро-семантических сетей.Морфологический анализ - процесс поиска морфологических разборов слов.Цель морфологического анализа - выяснить, из каких морфем построены слова.Например, морфологический анализатор должен сказать, что слово «кошки» являетсяформой множественного числа существительного «кошка», и слово «мыши» являетсяформой множественного числа существительного «мышь».