Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 3

PDF-файл Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 3 Технические науки (27695): Диссертация - Аспирантура и докторантураАвтореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов) - PDF, страница 3 (27695) - СтудИзба2019-03-12СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 3 страницы из PDF

На рисунке 2 приведена схема разработанного мультимодельного метода анализа и рубрицирования ЭНТД на основе комбинированного использования нечетко-логических, нейро-нечетких и вероятностных моделей. 1О Алаптнвнос формирование рубрик шксигв!Г Рубрнннроввнный ТД точность рубрнцировааия БАЦ Формиршмиие рскомеыш Норма ание Эксперт прелметн облас ф Уш шение рубрикиу Национальный Сбор статистических псиных корпус ртсскопэ языка пв «а Соэлаигм олени рыбного нзмка ЕД час огиьгх харакшриотак уг,, эг Экспертаингвггс ~--т С'интакси «ский анализатор Майрызег Сос гавчешм переев вмнмосензсй ыэаурусов рубрик 1, ТЕКСТОВЫЙ ДОКУМЕНТ У ! Кенеша» лралукциениая система выборе молелн рубрншгровани» Негзрпшлггмй— гасрггуть эксперту мя аивлиы ! ! ! ! 1 Лоьучснтв ! ! Хпракырнстнкн рубри гного пшш Модель ив основе иечегного леревн решений Г'енерацвв ие егкопг лерсеа р шений мель с нсгшлм ованвем «есовьи кот нцишион Обг.

ение нейросети Выбор сиоообв форммнзации Кпскалиав нсйро. нечетная момгм у пэпмни рубрики Гб Ощммлы ие важно ыг Г-вт сроке хр вагш эгоьтче га пг Яу О ш и Рубрипировпниые локьчемы Вероаги сшый нлнеснфшмтор Формплазаци» текстового Мешл голосования кеасснфшмгорав Ошибочно рубрнцироааниын ТД ш — — — —— Волочет ашабок Рисунок 2 — Схема мультимодельного метода анализа и рубрицироаания ЭНТД При реализации данного метода осуществляется анализ множества ЭНТД вида: 1' — Р,з" з1'йз" э1'А.уз 11) в котором каждый документ 1;, к = 1, ...,К, представляется в виде набора значимых слов Р; =1з,'"'з...зт,"~з...,т',"'1з тс=1,...,К, т,"' — слово ЭНТД, 1й =1у...зт'„з А, — количество слов в к-м ЭНТД. Важнейшим этапом реализации рассматриваемого мультимодельного метода является формирование и мониторинг рубричного поля, который приводит к описанию элементов множества рубрик: 11 =Яз...,Язт..., Я,~, 12) 11 где а ~( о) .О~ У' о> ли) ~и,о! ли Ро> со) 1 о1,о~ Г ии .си)) у'=1,...„У, и~„" — и~,-е слово в рубрике Р,,т, =1,..., М, г,'," я[0,11 — степень со- Е1 ответствия т,-го слова ~'-й рубрике, ф' — частота встречаемости т,-го словау'-й рубрике, рг„'," — порог употребления п1;го словау'-й рубрике.

После формирования множества рубрик А осуществляется выбор конкретной модели для рубрицирования ЭНТД на основе выявления типовых ситуаций. Учитывая, что используемые при выборе значения характеристик ЭНТД 1размер /с-го ЭНТД У., = (А'„— короткий, А",,' — средний, 1.', — большой1; степень пересечения тезаурусов рубрик Кпер=1Клер' — незначительная, Кпер"' — средняя, Кпер — существенная1, объем накопленных статистических данных ~'па~ = ~рю~а~' — недостаточный, рЪ~а~ — достаточный) ) определяются с использованием экспертной информации, то для реализации процедуры выбора конкретной модели из множества моделей М = 1Мь ..., М„..., Мл,' предлагается сформировать и использовать базу нечетких продукционных правил, В качестве примера правила из этой базы можно рассматривать: ЕСЛИ Маг есть Рк~а~' И Клер есть Кпер"' И Ц есть Ц ТО выбирается М,„ В диссертации предложена структура каскадной нейро-нечеткой модели для рубрицирования ЭНТД, которая представлена на рисунке 3.

Данную модель целесообразно использовать для рубрицирования небольших по объему ЭНТД при незначительном пересечении рубрик и достаточным для обучения гибридной нейронной сети объеме статистической информации по каждой рубрике. атд и Рисунок 3 — Структура каскадной нейро-нечеткой модели для рубрицироаания Эн! Д Предлагаемая каскадная нейро-нечеткая модель включает в себя: 1. Модель для предварительного анализа ЭНТД с использованием синтаксического парсера (выделяющего синтаксические связи) для формирования 12 множеств значимых слов (ЗС) ЭНТД с одинаковой синтаксической ролью в предложениях, на выходе которой формируется множество синтаксических групп следующего вида: (3) 2.

Модель формализации ЭНТД путем сопоставления ЗС ~"' каждой синд)(А) таксической группы с элементами базы данных (БД) весовых коэффициентов для формирования степени принадлежности ЗС к каждой рубрике. В результате использования этой модели определяются оценки степеней принадлежности синтаксических групп Я)„"' ко всем рубрикам Я,, а затем для каждой из них вычисляется оценка степени его близости к каждой рубрике по формуле вида: ф я,У: Еиг(Ю„, Я, ) = (Еа(Ю~"', Я, ) ), и = 1, ..., У. (л) Оценки Еп(Я)„'"', Я,.) подаются на входы нейро-нечеткой модели для ~'-й рубрики. 3.

Совокупность частных нейро-нечетких моделей для формирования степени принадлежности ЭНТД каждой отдельной рубрике Я„ 4. Анализатор для выбора рубрики Я,, к которой в наибольшей степени относится ЭНТД. Выходная информация со всех частных нейро-нечетких моделей поступает на анализатор, который принимает решение о рубрицировании с использованием выражения: Я,: гпах р(Я,), где фЯ,) — нелинейное преобразование (например, сигмоидального вида) для определения степени принадлежности к ЭНТД к~'-й рубрике. Для формализации ЭНТД, а также для непосредственного применения в ситуациях рубрицирования средних по размеру ЭНТД при отсутствии необходимого для применения нейро-нечетких моделей объема накопленной статистической информации о сообщениях данного типа и слабой степени пересечения рубрик предложена модель агрегации и обработки ЭНТД с использованием весовых коэффициентов, которая реализуется следующим образом.

Для каждого ЭНТД определяется множество оценок Еи(Р'„.. Я 1 „ (~,"', и,"'): и,'~' = ~;,'," ! и,'," = ~,'"', где и,"' — весовой коэффициент 1~.-го значимого слова к-го ЭНТД для~'-й рубрики. И далее рассчитывается показатель о(Г,, Я ), характеризующий степень соответствия ЭНТД 1'~ рубрике Я,: и"' ф е .7, р(Р"„, Я, ) = '" ' (б) Непосредственная рубрикация ЭНТД Р~ проводится на основе выбора мак- 13 симального значения степени принадлежности к одной из набора рубрик по формуле (5), только вместо функции принадлежности д(Р,.) используются показатели о(1Г„Я,), вычисленные по формуле (3), Частные нейро-нечеткие модели для формирования степени принадлежности ЭНТД каждой отдельной рубрике Я, представляют собой трехслойные гибридные нейро-нечеткие сети, в которых на входы элементов первых слоев поступают значения параметров рубрицируемого ЭНТД в виде Еьт(Я),',",Л,).

Элементы вторых слоев этих моделей реализуют нечеткие функции активации для правил вывода, которые оценивают влияние анализируемого слова на определение рубрики и представляют собой терм-множества, соответствующие значениям: «слабое», «среднее» и «высокое» влияние. Элементы третьих слоев моделей реализуют вычисление функций минимума по всем входным значениям, при этом количество нейронов данных слоев равно 3 . Четвертые слои состоят из,У элементов, каждый из которых реализует функцию максимума. В результате на выходе каждой частной модели формируется степень принадлежности ЭНТД к соответствующей7'-й рубрике.

В диссертации разработана нечетко-логическая модель анализа ЭИТД документов, отличающаяся использованием синтаксических связей и ролей слов, а также нечеткой оценкой различий между документами в и-мерном пространстве признаков текстов при построении нечеткого дерева решений (НДР) для отнесения документа к конкретной рубрике в условиях взаимозависимости тезаурусов рубрик, а также недостатка статистической информации при формировании новых рубрик.

Пример нечеткого дерева решений для к-го ЭНТД приведен на рисунке 4. Процедура рубрицирования ЭНТД при помощи модели на основе НДР включает следующие шаги. Шаг 1. На вход НДР поступает Я), =(~,'"'~,I,. =1,..., А„., У.„— количество слов /с-го ЭНТД. Шаг 2. Для определения степени принадлежности ЭНТД 1'; к рубрикам от корневого узла до листа множество Ю, сопоставляется с узлами НДР: (7) ~Ь~ где Я,, — совокупность рубрик, относящихся к д-му узлу НДР на Ь-м уровне, 6 — количество узлов на 6-м уровне.

14 .м а~ ( ч р(ю'„и и ", р(ю,,ав м ! 2 2 (Ь ., р(~(2,, Ктл |р '~р(50,, (( в 3 . 4 ~н) р(В0,,((3.3 т т 2 3 4 5 т 2 рр р(а(3',, Ртв р т тв т т т М~ ((~ А, К,. т ((3 Рисунок 4 — Пример нечеткого дерева решений для А-го ЭН1'Д где а,,,,„, (Я2(, ') — степень принадлежности 7(-го ЭНТД группе Я~(о рубрик по синтаксическому параметру ь„, вычисляемая как: (4) 1 Ф. (43 ,и,,„,, „,, (,Я.р„) = —,„, ~ и„, и = 1, ..., Ф. 1д) у р й р= Считается, что ЭНТД Рт относится к той рубрике, степень принадлежности к которой является максимальной. Предложен метод мониторинга и изменения рубрик для ЭНТД, отличающийся использованием процедур нечеткой динамической кластеризации этих документов, реализация которого включает перечисленные ниже этапы.

Для этого вводится множество оценок, вычисляемых в соответствии с 14) для параметров Я.2 и Я(.,". Для этого для каждого слова из синтаксических подмножеств высчитывается степень его значимости для группы рубрик по фоРмУле ((( ',и( '):и( ' =г,„'-"' ~34;р-"' =32' ', где и( ' — степень соответствиЯР-(о ам -Ф слова /г-го ЭНТД группе рубрик Р,".,", соответствующих ~-му узлу на Ь-м слое (((ж 3 нечеткого дерева решений; г„-'4 — среднее значение степени соответствия (2',, ' слова Й-го ЭНТД рубрикам А' '. Вводится показатель р(Я2,Я„",), характеризующий степень соответствия ЭНТД 1'„ рубрикам Я,"„', который определяется на основе дополнения относительного евклидова расстояния между нечеткими множествами вида: ф ~ .У, ~~(ЯЭ, Л,'.") = 1 —— Ф) 15 Этап 1.

Сопоставление множества Я)~ со всеми рубриками А, по формуле (7). Для этого высчитывается множество оценок по формуле (4) для параметров Я~~~~и А,. Для каждой пары (ч,'"',и,',"'):и„'"' = ~;,',"! и,'„" = я„"' находится и,'~' — степень соответствия р-го слова к-го ЭНТД~'-й рубрике. Показательр (Яэ„, А,.), характеризующий степень соответствия ЭНТД 1'~ рубрике А,, расчитывается по (8) и (9). Считается, что ЭНТД 1'» в наибольшей степени относится к той рубрике А,", степень принадлежности к которой является максимальной и рассчитывается по формуле (5) для параметров 5В, и А, .

Этап 2. Проверка условий пересмотра состава и структуры рубричного поля с помощью двух дополнительных показателей вида: Ф ~ "~ Ра ~ (~~~' А; ) = 1 1 ~/У ф я,У, р,(50„, А ) = 1 —— 1 ,Ж где р„(5О„А,) характеризует степень неопределенности при отнесении ЭНТД 51'.1„к рубрике А,, а о,(ЯЭ„А,) — степень несоответствия ЭНТД 50„рубрике А,. Реализация данного этапа предлагает вычисление показателей р,(5О„А ), о„(ЯЭ„, А,), о„(ЯЭ„А,) для всех ЭНТД и их анализ, по результатам которого осуществляется пересмотр состава и структуры рубричного поля. Этап 3.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5209
Авторов
на СтудИзбе
431
Средний доход
с одного платного файла
Обучение Подробнее