Автореферат (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)

PDF-файл Автореферат (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) Технические науки (19370): Диссертация - Аспирантура и докторантураАвтореферат (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) - PDF (19370) - Сту2018-01-18СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей". PDF-файл из архива "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиЛе Мань ХаВЫЧИСЛИТЕЛЬНЫЙ КОМПЛЕКС- КЛАССИФИКАТОРТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ МОРФОЛОГИЧЕСКОГОАНАЛИЗА И НЕЙРО-СЕМАНТИЧЕСКИХ СЕТЕЙ05.13.15 - Вычислительные машины, комплексы и компьютерные сети - потехническим наукамАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква20172Работа выполнена на кафедре интеллектуальных информационных систем итехнологий Московского Физико-Технического Института (государственногоуниверситета).Галушкин Александр Иванович, доктор технических наук,профессор кафедры «Интеллектуальные информационныесистемы и технологии» Московского Физико-ТехническогоНаучныеИнститута.руководители:Харламов Александр Александрович, доктор техническихнаук, старший научный сотрудник Института Высшей НервнойДеятельности и Нейрофизиологии РАНТолчеев Владимир Олегович, доктор технических наук,Официальныепрофессор, профессор кафедры управления и информатикиоппоненты:федерального государственного бюджетного образовательногоучреждениявысшегообразования«Национальныйисследовательский университет «МЭИ»Киселев Михаил Витальевич, кандидат технических наук,доцент, доцент кафедры актуарной и финансовой математикифакультетаприкладнойматематики,физикииинформационных технологий федерального государственногобюджетногообразовательногоучреждениявысшегообразования «Чувашский государственный университет имениИ.Н.

Ульянова»ВедущаяФедеральный исследовательский центр «Информатика иорганизация:управление» РАНЗащита состоится «7» декабря 2017 г. в 15-00 часов на заседаниидиссертационного совета Д 212.131.05 на базе федерального государственногобюджетного образовательного учреждения высшего образования «Московскийтехнологический университет» по адресу: 119454, г.

Москва, пр. Вернадского, д. 78,ауд. Д217С диссертацией можно ознакомиться в библиотеке Московскоготехнологического университета и на сайте https://mirea.ru/.Автореферат разослан «05» ноября 2017 г.Ученый секретарьдиссертационного советак.т.н, доцентАндрианова Елена Гельевна3ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность темы диссертацииКлассификация текстов — одна из главных задач обработки естественного языка,заключающаяся в определении категории текста, список категорий может бытьизвестен или нет.

Классификация текстов часто реализуется на основании содержаниятекстов, анализа элементов текста (слова, предложения и т.п.) и взаимодействия междуними. Классификация может осуществляться вручную или автоматически сприменением методов машинного обучения. Современные методы классификациитекстов требуют огромных баз данных для обучения, и способны изучать иклассифицировать семантические значения текстов.С развитием компьютерных технологий появились требования к созданиюинтеллектуальных систем, которые способны решать творческие задачи без участиячеловека.

Спустя полвека, технология машинное обучение, в том числе обработкаестественных языков и классификация текстов еще далеки от совершенства.Для классификации данных интернет-ресурсов требуются современныеалгоритмы, способные не только обработать огромное количество информации, но ирешать задачи, которые несколько лет назад решали полностью вручную: разделениесайтов по тематическим каталогам, борьба со спамом, распознавание эмоциональнойокраски текстов, персонификация рекламы и т.п.Российские и иностранные ученые и исследователи, такие как Л.

Л. Иомдин, А.И. Галушкин, А. А. Харламов, В. М. Хачумов, М. В. Киселев, Д. О. Жуков, В. Я.Цветков, А. О. Казенников, A. Ng, D. Jurafsky, J. H. Martin, C. D. Manning, R. Socher, T.Mikolov, внесли значительный вклад в развитие теории информационных систем,методов информационного поиска, методов классификации и кластеризации текстов,методов синтаксического анализа и извлечения знаний из текстов. Активно ведутработы в этих направлениях такие организации, как Институт Проблем ПередачиИнформации РАН, Институт системного анализа РАН, Яндекс, Mail.ru, ABBYY,Google, Facebook, Microsoft.В диссертационной работе, на основе критического анализа существующихметодов классификации текстов гипотезируется, что создание вычислительногокомплекса-классификатора текстов с использованием морфологического анализа инейро-семантических сетей может обеспечить высокое качество и быстродействиеобработки и классификации текстов.4Цель и задачи исследованияЦелью диссертации является разработка математического, алгоритмитическогои программного обеспечения вычислительного комплексаклассификатора текстов с использованием морфологического анализа инейро-семантических сетей.Для достижения этой цели в диссертационной работе сформулированыследующие задачи :1.

Проведение критического анализа существующих методов представления иклассификации текстов.2. Проведение анализа методов глубокого обучения посредством искусственныхнейронных сетей для обработки и классификации текстов3. Разработка метода морфологического анализа текстов.4. Разработка математического и программного обеспечения вычислительногокомплекса семантической нейронной сети для получения векторного представленияграмматических структур текстов.5.Разработкаалгоритмитическогоипрограммногообеспечениявычислительного комплекса рекурсивного автоэнкодера морфологического анализадля получения векторного представления текстов.6. Разработка метода «К» ближайших соседей с использованием двоичногодерева.7. Разработка архитектуры сервер-клиент и веб-интерфейса демо комплекса дляморфологического анализа и классификации текстов.8. Внедрение результатов и научных положений диссертации в практическиеразработки.Объектом исследования диссертации являетсяморфологического анализа и классификации текстов.вычислительныйкомплексПредмет исследования определен паспортом специальности 05.13.15, областямиисследования: №2 - «Теоретический анализ и экспериментальное исследованиефункционирования вычислительных комплексов с целью улучшения ихтехнико-экономических и эксплуатационных характеристик» и №3 - «Разработканаучных методов и алгоритмов организации специальной обработки данных, храненияи ввода-вывода информации», а также перечнем задач, решаемых в диссертации.Научная новизна работы состоит в следующем:1.

Разработан метод обработки данных для создания морфологических словарей.2. Разработан метод морфологического анализа для предварительной обработкитекстов, позволяющий методом развитых словоформ выделять морфологическиепризнаки слов для последующей классификации.53. Разработаны математическое и программное обеспечения вычислительногокомплекса нейро-семантической сети для определения адекватного векторногопредставления грамматических структур текстов, который позволяет повышатьточность классификации текстов на 5-12% по сравнению с другими методамиклассификации.4.Разработаныалгоритмитическоеипрограммноеобеспечениявычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов ивекторов-морфологий, который позволяет повышать точность классификации текстовна 7-13% по сравнению с другими методами классификации.5.

Разработан метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяетувеличить скорость классификации текстов в 2-4 раза.Практическая значимость полученных результатов состоит в повышении точностиклассификации текстов на 5-13% по сравнению со другими методами классификации,в повышении скорости классификации текстов в 2-4 раза, так же в возможностиприменения морфологического анализа и нейронных сетей для решения других задачобработки естественного языка. Результаты диссертационного исследования былииспользованы в технологиях научно-производственного инновационного центраМИКРОСИСТЕМЫ и в исследовании системы голосового управления в ИнститутеВоенных Автоматизированных Технологий, Академия Военных Наук и Технологий,Министерство Обороны Вьетнама, что подтверждено актами о внедрении, кроме тогоавтору был выдан патент на изобретение «Голосовая связь на естественном языкемежду человеком и устройством» (RU 2583150) [13].Обоснованность и достоверность результатов и выводов определяетсяследующими факторами:• Согласованностью теоретических выводов с результатами экспериментов наразных базах данных;• Докладами на российских и международных научных конференциях ипубликациями результатов исследования в рекомендованных Высшей аттестационнойкомиссией научных изданиях.• Положительными результатами практического использования результатовдиссертационной работы, подтвержденными актами о внедрении;• Патентом на изобретение;Личный вклад соискателя в работах заключается в следующем:1.

Разработка метода обработки данных для создания морфологическихсловарей.2. Разработка метода морфологического анализа текстов.63. Разработка математического и программного обеспечения вычислительногокомплекса нейро-семантической сети на основе морфологических словарей.4. Разработка алгоритмического и программного обеспечения вычислительногокомплексарекурсивногоавтоэнкодерасобъединиемвекторов-словивекторов-морфологий.5. Разработка метода «К» ближайших соседей с использованием двоичногодерева.Основные результаты по теме диссертационной работы получены авторомсамостоятельно [1, 3, 4, 6, 7, 8, 9, 10, 11, 12], совместно с научным руководителем иколлегами [2, 5, 13].Апробация результатов работыОсновное содержание работы докладывалось на 55-ой и 57-ой научныхконференциях МФТИ 2012 и 2014г., XI, XIII, XIV и XV Всероссийских научныхконференциях «Нейрокомпьютеры и их применение» 2013, 2015, 2016 и 2017г. а такжена международной конференции «Инжиниринг и Телекоммуникации - EnT 11/2014».Публикации автора по теме диссертацииПо теме диссертации опубликовано 12 статьей в журналах и докладов наконференциях, 5 из них в списке научных изданий, зарегистрированных в Высшейаттестационной комиссией Минобрнауки России, которые рекомендуемые дляопубликования основных научных результатов исследований на соискание ученойстепени кандидата наук.Структура и объём работыДанная диссертационная работа состоит из титульного листа, оглавления,введения, пяти глав, заключения, списка литературы и приложений.

Объемдиссертации составляет 148 страниц формата A4, 46 рисунков и 11 таблиц. Списоклитературы включает 182 наименований.7СОДЕРЖАНИЕ РАБОТЫВо введении обоснована актуальность темы диссертации, определены её цель и задачи,сформулированы научная новизна и практическая значимость полученных результатови приведено краткое содержание диссертации по главам.В первой главе диссертации проведен критический анализ существующих методовпредставления и классификации текстов: TF-IDF, word2vec, GloVe и основныеклассификации методы текстов: метод Байеса, метод Роччио, метод «К» ближайшихсоседей, метод опорных векторов, мультиномиальная логистическая регрессия(Softmax), рекурсивный автоэнкодер, свёрточная нейронная сеть, рекуррентнаянейронная сеть.Вторая глава посвящен анализ методов глубокого обучения посредствомискусственных нейронных сетей для обработки и классификации текстов. Былирассмотрены многослойная нейронная сеть, метод обратного распространения ошибкидля обучения нейронных сетей, автоэнкодер, свёрточная нейронная сеть ирекуррентная нейронная сеть.Третьяглавасодержитрезультатыразработкивычислительногокомплекс-классификатора текстов с использованием морфологического анализа инейро-семантических сетей.Морфологический анализ - процесс поиска морфологических разборов слов.Цель морфологического анализа - выяснить, из каких морфем построены слова.Например, морфологический анализатор должен сказать, что слово «кошки» являетсяформой множественного числа существительного «кошка», и слово «мыши» являетсяформой множественного числа существительного «мышь».

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее