Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 4
Описание файла
Файл "Автореферат" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Идентификация типовой ситуации и изменение состава и структуры рубричного поля. По результатам мониторинга рубрик в зависимости значений полученных показателей р, (5,гЗ,, А,), р„(5й.„А,), р,(ЯЭ,, А,),/с =1, ..., К. ~' =1, ...,.У, возможны следующие типовые ситуации изменения рубричного поля: выделение дополнительной рубрики на «стыке» существующих рубрик; разделение рубрики; формирование новой рубрики; исключение рубрики; объединение рубрик. В диссертации приведены условия принятия решений по пересмотру рубричного поля в соответствии с идентифицированными типовыми ситуациями, Например, условием целесообразности объединения рубрик является выражение: р (ЯЭ„А,) < а И р,(5Х)„, А,) < а) И Ро (Ю,,А,) >гг И Р„(5В,,А )>сг) И (р„(5В„, А,) >,В И р„(5В„, А, ) >,В) И 'чА, ~А,1~~'~ ~':р,(5В, А,) >,В И р„.(5В„А,) >а И р,(50,, А,) <а.
где а и р' — нижнее и верхнее граничные значения, определяющие целесообразность пересмотра рубричного поля. В третьей главе описываются разработанные алгоритмы анализа ЭНТД и мониторинга рубричного поля. Для практического использования предлагаемого мультимодельного метода анализа электронных неструктурированных тек- 1б стовых документов разработан алгоритм его реализации, схема которого пред- ставлена на рисунке 5. Формнромзиис тезаурусов рубрик Д Выбор первого ЭТД ыораиный ЭТ паслелнийт и ешша яо тие тя Ны рь Рспзстрамн» документа коегментатар 5 акняр»тш» ыш рь Морфааоги Некий вишиз Нечагкия продукцишшая снатсма выбора шшсабв рубрицираввиня шгшк етш иа шзе сш с ПЗ" „и,киме„, Нш сясм П5 П опт от овш ЭТД для испо»Шаваинл молелн е использованием весомы казффнциентов Подгшовка Эта лл» исцазьзо»анн» моден» исчегкош "дерева решений" Ручное рубрвциравание Малс»ь с использованием весовых кезффициснтав Модшь ни основе нече п.ога переев решений Зш агар г 5 » » ШМЗШШШ ° МС» Ь Ш5МСГС шммП»т с о мП5' шаьшПШ Доба»»синс ТД « ирки»у рубрипнроввиных документов Ручнш рубрнцнромшив Одра»шаньге алресатп и отправка ТД Метод голосования кчассз55 нкито ав Каскадна» нейра~счсп ая модель Вероятностный «лассифншпор Рисунок 5 — Схема алгоритма реализации мультимодельного метода анализа у1-П Д Алгоритм реализации мультимодельного метода рубрицирования ЭНТД содержит такие этапы предварительного анализа, как регистрация документа в ИС, его сегментация и морфологический анализ.
Далее с помощью базы нечетких продукционных правил выбирается модель рубрицирования, после чего проводится формализация ЭНТД и, непосредственно, процедура рубрицирования. Подготовка ЭТД зшк не я о»ьз мания модели нейросешвого класси 5»като а Палгшовка ЭТД лчк испалшования модели вераятнаознога класси »ката в Падгшовке ЭТД Ш5» нспооьзоваиия модели галасованк» «ласаи5 иквш ов Также разработаны алгоритмы, реализующие рубрицирование на основе нейро-нечеткого классификатора, нечеткого дерева решений и модели с использованием весовых коэффициентов ЗС ЭНТД.
В четвертой главе описаны результаты практического использования разработанных в диссертации алгоритмов анализа и рубрицирования ЭНТД, Для практической реализации предложенных мультимодельного метода„ моделей и алгоритмов разработана архитектура информационной системы автоматизированного рубрицирования ЭНТД в условиях изменения рубрик Апех 1.0. Даная система разработана на языке программирования М1сгозойСФ с использованием инструментов пакета М1сгозойЧ18иа1СФ 2010Ехрге85, а также системы управления реляционными базами данных М1сгозойЩ.Бег~/ег 2008.
Формирование запросов осуществляются на языке Тгапзас1-Щ.. Для проверки точности разработанных алгоритмов и средств автоматизированного рубрицирования ЭНТД проведены вычислительные эксперименты с использованием тестовых выборок из наборов данных Хея58гоир-20 (пакета «19997хч который содержит 18846 документов, отсортированных в пропорции 60% для обучающей выборки и 40% — для тестирования). Результаты для взаимосвязанных рубрик приведены на рисунке 6, а для несвязанных рубрик — на рисунке 7.
! 95%» ~ 90% 90% ~ 85% , 85% /5% '-- --- -. - г'-г'-- -. л /0»У -- . гг-,.l-,~лР- /со,о б5% 85» 80% 2000 5000 8000 1/000 б0% /00О 50О0 8000 исаа на основ» всролтиостного кгиссггфгнатора нк основ» а»ролик» т ни о клас сифкка гора на основ» нснро.исч»ткого ккиснфнкзтора ол санов» и»Про-иочсткого гоиссвфгнлтора на основ» нач»тк но лсрсааргшгнгнр на оскс»с начал»ого лорана р »никит ив основ» ар»саик коиффгннригор, на основ» ассоанкко»ффгкгг»нтоа Рисунок 6 — Зависимость точности рубрипирования от объема обучающей выборки нри взаимосвязанных рубриках Рисунок 7 — Зависимость точности рубрицнрования от объема обучающей выборки при несвязанных рубриках Как видно из рисунков 6 и 7, при взаимосвязанных и несвязанных рубриках, а также небольшом размере обучающей выборки (до 5000), т.е.
при наиболее часто встречающихся на практике ситуациях, модели рубрицирования на основе НДР и нейро-нечеткого классификатора показывают соответствешю бо- Таблица 4 — Результаты рубрицирования сообщений, поступивших в Админист ацию Смоленской области, % п авильно б х ЭНТД Т Лг~ех 1.О Модель 11а основе нечеткого дерева ре- гнений На основе вероятностного клас- сификатора На основе ве- На основе нейсовых коэффи- ~ ро-нечеткого циентов классификатора Ситуация 2 65 75 62 ' 61 ~ 75 62 66 ! 79 ~ 79 87 87' 73 86 ' 84 , '89 Исходя из анализа данных таблицы 4 можно заключить, что разработанная информационная система Аг1ех 1.0 позволяет снизить число ошибочно рубрицированных ЭНТД в среднем на 13,3% по сравнению с известными системами, основанными на использовании вероятностных моделей.
ЗАКЛЮЧЕНИЕ В результате исследований решена научная задача, заключающаяся в разработке нейро-нечетких методов и алгоритмов анализа электронных неструктурированных текстовых документов в условиях изменения рубрик. При выполнении диссертации получены следующие основные результаты. 1. Выполнен анализ задач и методов автоматизированного рубрицирования текстовых документов и оценены их перспективы для анализа электронных неструктурированных текстовых документов с учетом особенностей жалоб и предложений граждан, поступающих в органы государственного и муниципального управления. 2. Разработан мультимодельный метод анализа электронных неструктурированных текстовых документов, обеспечивающий возможности комбинирования нечетких, нейро-нечетких и вероятностных моделей с учетом различного объема документов, степени пересечения рубрик и достаточности статистической информации о рубрицируемых документах. 3.
Разработан метод мониторинга и изменения рубрик электронных неструктурированных текстовых документов в зависимости от идентифицированных ситуаций изменения рубричного поля на основе нечеткой динамической кластеризации этих документов, лес высокую точность рубрицирования ЭНТД по сравнению с другими рассматриваемыми моделями. Разработанные методы и модели для рубрицирования ЭНТД были практически использованы в Администрации Смоленской области при автоматизации процедур обработки обращений граждан и организаций.
В таблице 4 приведены результаты рубрицирования 50б2 сообщений, поступивших в 2016— 2017 г.г, 19 4, Разработана каскадная нейро-нечеткая модель и алгоритмы анализа коротких электронных неструктурированных текстовых документов в условиях нехватки статистических данных для использования вероятностных методов. 5. Разработана нечетко-логическая модель и алгоритмы анализа электронных неструктурированных текстовых документов на основе нечетких деревьев решений с учетом синтаксических связей и ролей слов в предложениях в условиях взаимосвязанных рубрик и нехватки статистических данных.
6. Разработан комплекс алгоритмов, реализующих предлагаемый мульти- модельный метод анализа электронных неструктурированных текстовых документов, а также метод мониторинга и изменения рубрик. 7. Проведена серия вычислительных экспериментов по проверке точности рубрицирования электронных неструктурированных документов с использованием разработанных методов, моделей, алгоритмов и программных средств, результаты которых позволили выделить области их применимости.
8. Представлены результаты практического использования разработанных алгоритмов и программных средств для автоматизированного анализа электронных неструктурированных текстовых документов, поступивших в Администрацию Смоленской области, Результаты показали, что разработанные методы, алгоритмы и программные средства обеспечивают повышение точности рубрицирования электронных сообщений, а также оперативности подготовки ответа.
Список основных публикаций по теме диссертации Публикации в журналах, рекомендованных ВАК РФ 1. Козлов П.Ю. Сравнение частотного и весового алгоритмов автоматического анализа документов // Научное обозрение. 2015. №14. С. 245 — 250. 2. Козлов П.Ю. Система автоматического извлечения информации из текстовых документов // Перспективы науки. 2016. №4, С. 7 — 9. 3. Козлов П.Ю. Методы автоматизированного анализа коротких неструктурированных текстовых документов // Программные продукты и системы. 2017, №1. С. 100-106. Статьи и научные труды, опубликованные в других изданиях 4.