Диссертация (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
2СОДЕРЖАНИЕВВЕДЕНИЕ .................................................................................................................. 51 АНАЛИЗСОВРЕМЕННЫХПОДХОДОВКАВТОМАТИЗИРОВАННОМУ АНАЛИЗУ ТЕКСТОВЫХ ДОКУМЕНТОВ .... 131.1 Общие процедуры и основные задачи автоматизированного анализатекстовых документов ..............................................................................................
131.2 Анализ современных методов автоматизированного рубрицированиятекстовых документов .............................................................................................. 201.3 Перспективы использования методов автоматизированного анализатекстов для рубрицирования электронных неструктурированных текстовыхдокументов .................................................................................................................
271.4 Выводы по главе ............................................................................................... 382 РАЗРАБОТКА МЕТОДОВ И МОДЕЛЕЙ АНАЛИЗА ЭЛЕКТРОННЫХНЕСТРУКТУРИРОВАННЫХТЕКСТОВЫХДОКУМЕНТОВИМОНИТОРИНГА РУБРИК ...................................................................................... 402.1 Мультимодельный метод анализа и рубрицирования электронныхнеструктурированных текстовых документов ....................................................... 402.2 Каскадная нейро-нечеткая модель анализа коротких электронныхнеструктурированных текстовых документов с использованием экспертнойинформации ...............................................................................................................
502.2.1Структура каскадной нейро-нечеткой модели для рубрицированиякоротких ЭНТД ................................................................................................. 502.2.2Модель рубрицирования ЭНТД с использованием весовыхкоэффициентов ..................................................................................................
522.2.3Модель формализации ЭНТД для нейро-нечеткого классификатора572.2.4Нейро-нечеткие модели оценки принадлежности ЭНТДкотдельным рубрикам ......................................................................................... 582.2.5Модель для выбора рубрики, в наибольшей степенисоответствующей ЭНТД ................................................................................... 602.2.6Процедура использования нейро-нечеткого классификатора длярубрицирования коротких ЭНТД ....................................................................
612.3 Модель анализа электронных неструктурированных текстовыхдокументов на основе нечеткого дерева решений ................................................... 6232.4 Методмониторингаиизменениярубрикэлектронныхнеструктурированных текстовых документов на основе их нечеткойдинамической кластеризации .................................................................................. 672.5 Выводы по главе ............................................................................................... 773 РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННЫХЭЛЕКТРОННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ И МОНИТОРИНГАРУБРИЧНОГО ПОЛЯ ...............................................................................................
793.1 Алгоритмы реализации мультимодельного метода рубрицирования ЭНТД .. 793.2 Алгоритмыдляанализакороткихэлектронныхнеструктурированных текстовых документов на основе нейро-нечеткогоклассификатора с использованием весовых коэффициентов ....................... 923.3 Алгоритмы для анализа коротких неструктурированных электронныхтекстовых документов на основе нечетких деревьев решений ............................ 983.4 Выводы по главе ............................................................................................. 1024 РЕЗУЛЬТАТЫ ПРАКТИЧЕСКОГО ИСПОЛЬЗОВАНИЯ АЛГОРИТМОВАНАЛИЗА(РУБРИЦИРОВАНИЯ)НЕСТРУКТУРИРОВАННЫХЭЛЕКТРОННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ .............................................. 1034.1 Структура средств информационной системы автоматизированногоанализа электронных неструктурированных текстовых документов................ 1034.2 Оценка точности рубрицирования электронных текстовых документов сиспользованием разработанных алгоритмов и средств ......................................
1084.3 Результаты практического использования разработанных алгоритмоврубрицирования неструктурированных электронных текстовых документов вАдминистрации Смоленской области ................................................................... 1124.4 Выводы по главе ................................................................................................ 123ЗАКЛЮЧЕНИЕ ....................................................................................................... 124СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ............................................... 126ГЛОСАРИЙ..............................................................................................................
138ПРИЛОЖЕНИЕ 1 Результаты тестирования разработанных алгоритмовавтоматизированного рубрицирования ЭНТД ..................................................... 1424СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙNLP – natural language processingTDM – text data miningVSM – vector space modelXML – eXtensible Markup LanguageАЛ – алгебраическая лингвистикаАОТ – автоматическая обработка текстаВЛ – вычислительная лингвистикаЕЯ – естественный языкЗС – значащие словаЗСХ – значение семантической характеристикиКЛ – компьютерная лингвистикаКЛ-1 – теоретическая компьютерная лингвистикаКЛ-2 – инженерная компьютерная лингвистикаКС – ключевое словоКЭНТД – короткий электронный неструктурированный текстовый документЛП – лингвистический процессорМПО – модель предметной областиПЛ – прикладная лингвистикаПТР – плоский текстовый рубрикаторСПТ – система понимания текстовСХ – семантические характеристикиТД – текстовый документТЕЯ – текстовый документ, написанный на естественном языкеЭНТД – электронный неструктурированный текстовый документ5ВВЕДЕНИЕАктуальность темы работы.
В настоящее время одним из основныхнаправлений государственной политики в Российской Федерации является повышение степени открытости органов государственной и муниципальной власти различных уровней, в том числе на основе организации их виртуальноговзаимодействия с населением. В результате происходит процесс постоянногосовершенствования интернет-порталов органов исполнительной и законодательной власти, с использованием которых каждый гражданин или организациямогут в электронном виде направить сообщение (жалобу, обращение, предложение и т.д.). Число подобных электронных контактов непрерывно растет.Например, за 2016 год в Администрации Санкт-Петербурга и Смоленской области поступило около 38 000 и 10 000 электронных сообщений, соответственно. С учетом жестко регламентированных сроков подготовки ответа возникаетнеобходимость обеспечения автоматизированной обработки указанных сообщений с целью их рубрицирования (классификации) для повышения оперативности взаимодействия с профильными структурными подразделениями администраций.
Решение данной задачи непосредственно связано с использованиемпроцедур извлечения данных из текстовой информации на основе примененияметодов анализа электронных текстовых документов.Электронные сообщения с точки зрения возможности их автоматизированной обработки обладают рядом специфических особенностей:•в значительной части случаев небольшой размер, что затрудняет егостатистический анализ;•отсутствие структуризации (специальной разметки и полей длякомпьютерной обработки), что усложняет процедуры извлечения информации;•наличие большого количества грамматических и синтаксическихошибок приводит к необходимости реализации нескольких дополнительныхэтапов обработки;•нестационарность тезауруса (состава и важности слов), который за-висит от выхода новых нормативных документов, выступлений должностных6лиц и политических деятелей и т.д., что приводит к необходимости использования процедур динамической кластеризации рубрик.Целесообразность динамического мониторинга рубричного поля (составаи характеристик рубрик) также определяется необходимостью адаптации процедур реакции на поступающие сообщения к изменяющимся внешним и внутренним факторам (например, изменениям в организационной структуре органоввласти).Очевидно, что указанные особенности рассматриваемых текстовых документов (которые можно отнести к неструктурированным электронным текстовым документам – далее ЭНТД), накладывают определенные ограничения наалгоритмы применения морфологического, синтаксического и семантическогоанализов, а также на соответствующие им процедуры формализации информации для автоматизированной обработки текстов, в том числе в рамках виртуальных систем информационного обеспечения различных региональных социально-экономических процессов.