Диссертация (1090484), страница 2
Текст из файла (страница 2)
Разработан метод обработки данных для создания морфологических словарей.2. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.3. Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет8повышать точность классификации текстов на 5-12% по сравнению с другимиметодами классификации.4.
Разработаны алгоритмитическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов ивекторов-морфологий, который позволяет повышать точность классификациитекстов на 7-13% по сравнению с другими методами классификации.5. Разработан метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.• Модуль кодирования текстов с помощью морфологического анализа.
Длякаждого слова, ищем его морфологические разборы и решаем морфологическую многозначность, получаем представление текста в виде массиваиндексов слов в словаре и их морфологических разборов.• Модуль уменьшения числа потенциальных ближайших соседей. Для снижения количества вычислительных операций, будем сравнивать толькотексты, имеющие общие термины, другими словами, нет смысла сравнивать тексты, которые не имеют никаких связей.• Модуль поиске ближайших соседей с использованием двоичного деревадля повышения быстродействия вычислительного комплекса.Основные результаты выносимые на защиту1.
Проведен критический анализ существующих методов представления иклассификации текстов.2. Проведен анализ методов глубокого обучения посредством искусственныхнейронных сетей для обработки и классификации текстов.3. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.4.
Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет9повышать точность классификации текстов на 5-12% по сравнению с другимиметодами классификации.5. Разработаны алгоритмическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторовморфологий, который позволяет повышать точность классификации текстов на7-13% по сравнению с другими методами классификации.6. Разработаны метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.7.
Разработаны архитектура сервер-клиент и веб-интерфейс демо комплексадля морфологического анализа и классификации текстов.8. Внедрение полученных в диссертации результатов в пратические разработки.Практическая значимость полученных результатов состоит в повышении точности классификации текстов на 5-13% по сравнению содругими методами классификации, в повышении скорости классификации текстов в 2-4 раза, так же в возможности применения морфологического анализаи нейронных сетей для решения других задач обработки естественного языка.Результаты диссертационного исследования были использованы в технологиях научно-производственного инновационного центра МИКРОСИСТЕМЫ и висследовании системы голосового управления в Институте Военных Автоматизированных Технологий, Академия Военных Наук и Технологий, МинистерствоОбороны Вьетнама, что подтверждено актами о внедрении, кроме того автору был выдан патент на изобретение «Голосовая связь на естественном языкемежду человеком и устройством» (RU 2583150) [29].10Обоснованность и достоверность результатов и выводовопределяется следующими факторами:• Согласованностью теоретических выводов с результатами экспериментовна разных базах данных;• Докладами на российских и международных научных конференциях ипубликациями результатов исследования в рекомендованных Высшей аттестационной комиссией научных изданиях.• Положительными результатами практического использования результатов диссертационной работы, подтвержденными актами о внедрении;• Патентом на изобретение;Личный вклад соискателя в работах заключается в следующем:1.
Разработка метода обработки данных для создания морфологических словарей.2. Разработка метода морфологического анализа текстов.3. Разработка математического и программного обеспечения вычислительного комплекса нейро-семантической сети на основе морфологических словарей.4.
Разработка алгоритмического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторовморфологий.5. Разработка метода «К» ближайших соседей с использованием двоичногодерева.Основные результаты диссертационной работы получены автором самостоятельно [30][31][32][33][34][35][36][37][38][39], совместно с коллегами [29][40][41].Апробация результатов работыОсновное содержание работы докладывалось на 55-ой и 57-ой научных конференциях МФТИ 2012 и 2014г., XI, XIII, XIV и XV Всероссийских научныхконференциях «Нейрокомпьютеры и их применение» 2013, 2015, 2016 и 2017г.а также на международной конференции «Инжиниринг и Телекоммуникации EnT 11/2014».11Публикации автора по теме диссертацииПо теме диссертации опубликовано 12 статьей в журналах и докладов наконференциях, 5 из них в списке научных изданий, зарегистрированных в Высшей аттестационной комиссией Минобрнауки России, которые рекомендуемыедля опубликования основных научных результатов исследований на соисканиеученой степени кандидата наук [30][31][32][40][41].Структура диссертационной работыДанная диссертационная работа состоит из титульного листа, оглавления,введения, пяти глав, заключения, списка литературы и приложений.
Объем диссертации составляет 148 страниц формата A4, 46 рисунков и 11 таблиц. Списоклитературы включает 182 наименований.Краткое содержание работы по главамВо введении обоснована актуальность темы диссертации, определены её цель,задачи, объект и предмет исследования, сформулированы научная новизна ипрактическая значимость полученных результатов и приведены публикации автора по теме диссертации.В первой главе диссертации проведен критический анализ существующихметодов представления и классификации текстов.Вторая глава посвящен анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов.В третьей главе представлен математическое, алгоритмическое и программное обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей.В четвертой главе представлено экспериментальное исследование вычислительного комплекса-классификатора текстов.В заключении приведены основные результаты диссертационной работы.Приложения содержат таблицы морфологических признаков, демо, примертехнического задания классификации эмоциональной окраски отзывов пользователей, патент на изобретение голосовой связи на естественном языке междучеловеком и устройством и акты о внедрении в практические разработки.12БлагодарностиАвтор выражает глубокую благодарность научному руководителю профессору д.т.н.
Галушкину А. И. за постановку задач и многочисленные идеи; научному руководителю д.т.н. Харламову А. А. за постоянное внимание к работе;д.т.н. Нгуену К. Т., профессору д.т.н. Аведьяну Э. Д. и преподавателям кафедрыинтеллектуальных информационных систем и технологий МФТИ Воронкову И.М. и Пантюхину Д. В. за поддержку на всех этапах выполнения данной работы;всем своим коллегам за активное обсуждение результатов.13Глава 1Критический анализсуществующих методовпредставления иклассификации текстов1.11.1.1Методы представления текстовСтатистический метод TF-IDFTF-IDF (Term Frequency — Inverse Document Frequency) [42] это популярныйметод оценки важности терминов в документах.
TF-IDF есть произведение TF- частоты появления термина в документе и IDF – частоты документа в базеданных.Задан докумен d, для термина t имеем:ni,tfti ,d = Pk nk(1.1)Pгде ni - сколько раз термин ti появляется в документе, а k nk - суммарноеколичество терминов документа (с учетом повторений). Таким образом, чемчаще термин появляется в документе, тем выше у него частота TF.14idfti ,D = log|D|,|(di ⊂ ti )|(1.2)где |D| – общее количество документов, а |(di ⊂ ti )| - количество документов,содержащих термин ti . Таким образом, чем реже термин появляется в другихдокументов, тем выше у него обратная частота IDF по данному документу.tf-idf вычисляется как произведение частоты появления термина в документеи частоты документа в базе данных:tf − idfti ,d,D = tfti ,d × idfti ,D .1.1.2(1.3)Векторное представление словВекторное представление слов [43] - это метод, в котором каждое слово представляется как числовой вектор из Rn .















