Главная » Просмотр файлов » Диссертация

Диссертация (1090484), страница 2

Файл №1090484 Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) 2 страницаДиссертация (1090484) страница 22018-01-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

Разработан метод обработки данных для создания морфологических словарей.2. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.3. Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет8повышать точность классификации текстов на 5-12% по сравнению с другимиметодами классификации.4.

Разработаны алгоритмитическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов ивекторов-морфологий, который позволяет повышать точность классификациитекстов на 7-13% по сравнению с другими методами классификации.5. Разработан метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.• Модуль кодирования текстов с помощью морфологического анализа.

Длякаждого слова, ищем его морфологические разборы и решаем морфологическую многозначность, получаем представление текста в виде массиваиндексов слов в словаре и их морфологических разборов.• Модуль уменьшения числа потенциальных ближайших соседей. Для снижения количества вычислительных операций, будем сравнивать толькотексты, имеющие общие термины, другими словами, нет смысла сравнивать тексты, которые не имеют никаких связей.• Модуль поиске ближайших соседей с использованием двоичного деревадля повышения быстродействия вычислительного комплекса.Основные результаты выносимые на защиту1.

Проведен критический анализ существующих методов представления иклассификации текстов.2. Проведен анализ методов глубокого обучения посредством искусственныхнейронных сетей для обработки и классификации текстов.3. Разработан метод морфологического анализа для предварительной обработки текстов, позволяющий методом развитых словоформ выделять морфологические признаки слов для последующей классификации.4.

Разработаны математическое и программное обеспечения вычислительного комплекса нейро-семантической сети для определения адекватного векторного представления грамматических структур текстов, который позволяет9повышать точность классификации текстов на 5-12% по сравнению с другимиметодами классификации.5. Разработаны алгоритмическое и программное обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторовморфологий, который позволяет повышать точность классификации текстов на7-13% по сравнению с другими методами классификации.6. Разработаны метод «К» ближайших соседей с использованием двоичногодерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.7.

Разработаны архитектура сервер-клиент и веб-интерфейс демо комплексадля морфологического анализа и классификации текстов.8. Внедрение полученных в диссертации результатов в пратические разработки.Практическая значимость полученных результатов состоит в повышении точности классификации текстов на 5-13% по сравнению содругими методами классификации, в повышении скорости классификации текстов в 2-4 раза, так же в возможности применения морфологического анализаи нейронных сетей для решения других задач обработки естественного языка.Результаты диссертационного исследования были использованы в технологиях научно-производственного инновационного центра МИКРОСИСТЕМЫ и висследовании системы голосового управления в Институте Военных Автоматизированных Технологий, Академия Военных Наук и Технологий, МинистерствоОбороны Вьетнама, что подтверждено актами о внедрении, кроме того автору был выдан патент на изобретение «Голосовая связь на естественном языкемежду человеком и устройством» (RU 2583150) [29].10Обоснованность и достоверность результатов и выводовопределяется следующими факторами:• Согласованностью теоретических выводов с результатами экспериментовна разных базах данных;• Докладами на российских и международных научных конференциях ипубликациями результатов исследования в рекомендованных Высшей аттестационной комиссией научных изданиях.• Положительными результатами практического использования результатов диссертационной работы, подтвержденными актами о внедрении;• Патентом на изобретение;Личный вклад соискателя в работах заключается в следующем:1.

Разработка метода обработки данных для создания морфологических словарей.2. Разработка метода морфологического анализа текстов.3. Разработка математического и программного обеспечения вычислительного комплекса нейро-семантической сети на основе морфологических словарей.4.

Разработка алгоритмического и программного обеспечения вычислительного комплекса рекурсивного автоэнкодера с объединием векторов-слов и векторовморфологий.5. Разработка метода «К» ближайших соседей с использованием двоичногодерева.Основные результаты диссертационной работы получены автором самостоятельно [30][31][32][33][34][35][36][37][38][39], совместно с коллегами [29][40][41].Апробация результатов работыОсновное содержание работы докладывалось на 55-ой и 57-ой научных конференциях МФТИ 2012 и 2014г., XI, XIII, XIV и XV Всероссийских научныхконференциях «Нейрокомпьютеры и их применение» 2013, 2015, 2016 и 2017г.а также на международной конференции «Инжиниринг и Телекоммуникации EnT 11/2014».11Публикации автора по теме диссертацииПо теме диссертации опубликовано 12 статьей в журналах и докладов наконференциях, 5 из них в списке научных изданий, зарегистрированных в Высшей аттестационной комиссией Минобрнауки России, которые рекомендуемыедля опубликования основных научных результатов исследований на соисканиеученой степени кандидата наук [30][31][32][40][41].Структура диссертационной работыДанная диссертационная работа состоит из титульного листа, оглавления,введения, пяти глав, заключения, списка литературы и приложений.

Объем диссертации составляет 148 страниц формата A4, 46 рисунков и 11 таблиц. Списоклитературы включает 182 наименований.Краткое содержание работы по главамВо введении обоснована актуальность темы диссертации, определены её цель,задачи, объект и предмет исследования, сформулированы научная новизна ипрактическая значимость полученных результатов и приведены публикации автора по теме диссертации.В первой главе диссертации проведен критический анализ существующихметодов представления и классификации текстов.Вторая глава посвящен анализ методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов.В третьей главе представлен математическое, алгоритмическое и программное обеспечения вычислительного комплекса-классификатора текстов с использованием морфологического анализа и нейро-семантических сетей.В четвертой главе представлено экспериментальное исследование вычислительного комплекса-классификатора текстов.В заключении приведены основные результаты диссертационной работы.Приложения содержат таблицы морфологических признаков, демо, примертехнического задания классификации эмоциональной окраски отзывов пользователей, патент на изобретение голосовой связи на естественном языке междучеловеком и устройством и акты о внедрении в практические разработки.12БлагодарностиАвтор выражает глубокую благодарность научному руководителю профессору д.т.н.

Галушкину А. И. за постановку задач и многочисленные идеи; научному руководителю д.т.н. Харламову А. А. за постоянное внимание к работе;д.т.н. Нгуену К. Т., профессору д.т.н. Аведьяну Э. Д. и преподавателям кафедрыинтеллектуальных информационных систем и технологий МФТИ Воронкову И.М. и Пантюхину Д. В. за поддержку на всех этапах выполнения данной работы;всем своим коллегам за активное обсуждение результатов.13Глава 1Критический анализсуществующих методовпредставления иклассификации текстов1.11.1.1Методы представления текстовСтатистический метод TF-IDFTF-IDF (Term Frequency — Inverse Document Frequency) [42] это популярныйметод оценки важности терминов в документах.

TF-IDF есть произведение TF- частоты появления термина в документе и IDF – частоты документа в базеданных.Задан докумен d, для термина t имеем:ni,tfti ,d = Pk nk(1.1)Pгде ni - сколько раз термин ti появляется в документе, а k nk - суммарноеколичество терминов документа (с учетом повторений). Таким образом, чемчаще термин появляется в документе, тем выше у него частота TF.14idfti ,D = log|D|,|(di ⊂ ti )|(1.2)где |D| – общее количество документов, а |(di ⊂ ti )| - количество документов,содержащих термин ti . Таким образом, чем реже термин появляется в другихдокументов, тем выше у него обратная частота IDF по данному документу.tf-idf вычисляется как произведение частоты появления термина в документеи частоты документа в базе данных:tf − idfti ,d,D = tfti ,d × idfti ,D .1.1.2(1.3)Векторное представление словВекторное представление слов [43] - это метод, в котором каждое слово представляется как числовой вектор из Rn .

Характеристики

Список файлов диссертации

Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей
Документы
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7021
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее