Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 3
Описание файла
Файл "Автореферат" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
На рисунке 2 приведена схема разработанного мультимодельного метода анализа и рубрицирования ЭНТД на основе комбинированного использования нечетко-логических, нейро-нечетких и вероятностных моделей. 1О Алаптнвнос формирование рубрик шксигв!Г Рубрнннроввнный ТД точность рубрнцировааия БАЦ Формиршмиие рскомеыш Норма ание Эксперт прелметн облас ф Уш шение рубрикиу Национальный Сбор статистических псиных корпус ртсскопэ языка пв «а Соэлаигм олени рыбного нзмка ЕД час огиьгх харакшриотак уг,, эг Экспертаингвггс ~--т С'интакси «ский анализатор Майрызег Сос гавчешм переев вмнмосензсй ыэаурусов рубрик 1, ТЕКСТОВЫЙ ДОКУМЕНТ У ! Кенеша» лралукциениая система выборе молелн рубрншгровани» Негзрпшлггмй— гасрггуть эксперту мя аивлиы ! ! ! ! 1 Лоьучснтв ! ! Хпракырнстнкн рубри гного пшш Модель ив основе иечегного леревн решений Г'енерацвв ие егкопг лерсеа р шений мель с нсгшлм ованвем «есовьи кот нцишион Обг.
ение нейросети Выбор сиоообв форммнзации Кпскалиав нсйро. нечетная момгм у пэпмни рубрики Гб Ощммлы ие важно ыг Г-вт сроке хр вагш эгоьтче га пг Яу О ш и Рубрипировпниые локьчемы Вероаги сшый нлнеснфшмтор Формплазаци» текстового Мешл голосования кеасснфшмгорав Ошибочно рубрнцироааниын ТД ш — — — —— Волочет ашабок Рисунок 2 — Схема мультимодельного метода анализа и рубрицироаания ЭНТД При реализации данного метода осуществляется анализ множества ЭНТД вида: 1' — Р,з" з1'йз" э1'А.уз 11) в котором каждый документ 1;, к = 1, ...,К, представляется в виде набора значимых слов Р; =1з,'"'з...зт,"~з...,т',"'1з тс=1,...,К, т,"' — слово ЭНТД, 1й =1у...зт'„з А, — количество слов в к-м ЭНТД. Важнейшим этапом реализации рассматриваемого мультимодельного метода является формирование и мониторинг рубричного поля, который приводит к описанию элементов множества рубрик: 11 =Яз...,Язт..., Я,~, 12) 11 где а ~( о) .О~ У' о> ли) ~и,о! ли Ро> со) 1 о1,о~ Г ии .си)) у'=1,...„У, и~„" — и~,-е слово в рубрике Р,,т, =1,..., М, г,'," я[0,11 — степень со- Е1 ответствия т,-го слова ~'-й рубрике, ф' — частота встречаемости т,-го словау'-й рубрике, рг„'," — порог употребления п1;го словау'-й рубрике.
После формирования множества рубрик А осуществляется выбор конкретной модели для рубрицирования ЭНТД на основе выявления типовых ситуаций. Учитывая, что используемые при выборе значения характеристик ЭНТД 1размер /с-го ЭНТД У., = (А'„— короткий, А",,' — средний, 1.', — большой1; степень пересечения тезаурусов рубрик Кпер=1Клер' — незначительная, Кпер"' — средняя, Кпер — существенная1, объем накопленных статистических данных ~'па~ = ~рю~а~' — недостаточный, рЪ~а~ — достаточный) ) определяются с использованием экспертной информации, то для реализации процедуры выбора конкретной модели из множества моделей М = 1Мь ..., М„..., Мл,' предлагается сформировать и использовать базу нечетких продукционных правил, В качестве примера правила из этой базы можно рассматривать: ЕСЛИ Маг есть Рк~а~' И Клер есть Кпер"' И Ц есть Ц ТО выбирается М,„ В диссертации предложена структура каскадной нейро-нечеткой модели для рубрицирования ЭНТД, которая представлена на рисунке 3.
Данную модель целесообразно использовать для рубрицирования небольших по объему ЭНТД при незначительном пересечении рубрик и достаточным для обучения гибридной нейронной сети объеме статистической информации по каждой рубрике. атд и Рисунок 3 — Структура каскадной нейро-нечеткой модели для рубрицироаания Эн! Д Предлагаемая каскадная нейро-нечеткая модель включает в себя: 1. Модель для предварительного анализа ЭНТД с использованием синтаксического парсера (выделяющего синтаксические связи) для формирования 12 множеств значимых слов (ЗС) ЭНТД с одинаковой синтаксической ролью в предложениях, на выходе которой формируется множество синтаксических групп следующего вида: (3) 2.
Модель формализации ЭНТД путем сопоставления ЗС ~"' каждой синд)(А) таксической группы с элементами базы данных (БД) весовых коэффициентов для формирования степени принадлежности ЗС к каждой рубрике. В результате использования этой модели определяются оценки степеней принадлежности синтаксических групп Я)„"' ко всем рубрикам Я,, а затем для каждой из них вычисляется оценка степени его близости к каждой рубрике по формуле вида: ф я,У: Еиг(Ю„, Я, ) = (Еа(Ю~"', Я, ) ), и = 1, ..., У. (л) Оценки Еп(Я)„'"', Я,.) подаются на входы нейро-нечеткой модели для ~'-й рубрики. 3.
Совокупность частных нейро-нечетких моделей для формирования степени принадлежности ЭНТД каждой отдельной рубрике Я„ 4. Анализатор для выбора рубрики Я,, к которой в наибольшей степени относится ЭНТД. Выходная информация со всех частных нейро-нечетких моделей поступает на анализатор, который принимает решение о рубрицировании с использованием выражения: Я,: гпах р(Я,), где фЯ,) — нелинейное преобразование (например, сигмоидального вида) для определения степени принадлежности к ЭНТД к~'-й рубрике. Для формализации ЭНТД, а также для непосредственного применения в ситуациях рубрицирования средних по размеру ЭНТД при отсутствии необходимого для применения нейро-нечетких моделей объема накопленной статистической информации о сообщениях данного типа и слабой степени пересечения рубрик предложена модель агрегации и обработки ЭНТД с использованием весовых коэффициентов, которая реализуется следующим образом.
Для каждого ЭНТД определяется множество оценок Еи(Р'„.. Я 1 „ (~,"', и,"'): и,'~' = ~;,'," ! и,'," = ~,'"', где и,"' — весовой коэффициент 1~.-го значимого слова к-го ЭНТД для~'-й рубрики. И далее рассчитывается показатель о(Г,, Я ), характеризующий степень соответствия ЭНТД 1'~ рубрике Я,: и"' ф е .7, р(Р"„, Я, ) = '" ' (б) Непосредственная рубрикация ЭНТД Р~ проводится на основе выбора мак- 13 симального значения степени принадлежности к одной из набора рубрик по формуле (5), только вместо функции принадлежности д(Р,.) используются показатели о(1Г„Я,), вычисленные по формуле (3), Частные нейро-нечеткие модели для формирования степени принадлежности ЭНТД каждой отдельной рубрике Я, представляют собой трехслойные гибридные нейро-нечеткие сети, в которых на входы элементов первых слоев поступают значения параметров рубрицируемого ЭНТД в виде Еьт(Я),',",Л,).
Элементы вторых слоев этих моделей реализуют нечеткие функции активации для правил вывода, которые оценивают влияние анализируемого слова на определение рубрики и представляют собой терм-множества, соответствующие значениям: «слабое», «среднее» и «высокое» влияние. Элементы третьих слоев моделей реализуют вычисление функций минимума по всем входным значениям, при этом количество нейронов данных слоев равно 3 . Четвертые слои состоят из,У элементов, каждый из которых реализует функцию максимума. В результате на выходе каждой частной модели формируется степень принадлежности ЭНТД к соответствующей7'-й рубрике.
В диссертации разработана нечетко-логическая модель анализа ЭИТД документов, отличающаяся использованием синтаксических связей и ролей слов, а также нечеткой оценкой различий между документами в и-мерном пространстве признаков текстов при построении нечеткого дерева решений (НДР) для отнесения документа к конкретной рубрике в условиях взаимозависимости тезаурусов рубрик, а также недостатка статистической информации при формировании новых рубрик.
Пример нечеткого дерева решений для к-го ЭНТД приведен на рисунке 4. Процедура рубрицирования ЭНТД при помощи модели на основе НДР включает следующие шаги. Шаг 1. На вход НДР поступает Я), =(~,'"'~,I,. =1,..., А„., У.„— количество слов /с-го ЭНТД. Шаг 2. Для определения степени принадлежности ЭНТД 1'; к рубрикам от корневого узла до листа множество Ю, сопоставляется с узлами НДР: (7) ~Ь~ где Я,, — совокупность рубрик, относящихся к д-му узлу НДР на Ь-м уровне, 6 — количество узлов на 6-м уровне.
14 .м а~ ( ч р(ю'„и и ", р(ю,,ав м ! 2 2 (Ь ., р(~(2,, Ктл |р '~р(50,, (( в 3 . 4 ~н) р(В0,,((3.3 т т 2 3 4 5 т 2 рр р(а(3',, Ртв р т тв т т т М~ ((~ А, К,. т ((3 Рисунок 4 — Пример нечеткого дерева решений для А-го ЭН1'Д где а,,,,„, (Я2(, ') — степень принадлежности 7(-го ЭНТД группе Я~(о рубрик по синтаксическому параметру ь„, вычисляемая как: (4) 1 Ф. (43 ,и,,„,, „,, (,Я.р„) = —,„, ~ и„, и = 1, ..., Ф. 1д) у р й р= Считается, что ЭНТД Рт относится к той рубрике, степень принадлежности к которой является максимальной. Предложен метод мониторинга и изменения рубрик для ЭНТД, отличающийся использованием процедур нечеткой динамической кластеризации этих документов, реализация которого включает перечисленные ниже этапы.
Для этого вводится множество оценок, вычисляемых в соответствии с 14) для параметров Я.2 и Я(.,". Для этого для каждого слова из синтаксических подмножеств высчитывается степень его значимости для группы рубрик по фоРмУле ((( ',и( '):и( ' =г,„'-"' ~34;р-"' =32' ', где и( ' — степень соответствиЯР-(о ам -Ф слова /г-го ЭНТД группе рубрик Р,".,", соответствующих ~-му узлу на Ь-м слое (((ж 3 нечеткого дерева решений; г„-'4 — среднее значение степени соответствия (2',, ' слова Й-го ЭНТД рубрикам А' '. Вводится показатель р(Я2,Я„",), характеризующий степень соответствия ЭНТД 1'„ рубрикам Я,"„', который определяется на основе дополнения относительного евклидова расстояния между нечеткими множествами вида: ф ~ .У, ~~(ЯЭ, Л,'.") = 1 —— Ф) 15 Этап 1.
Сопоставление множества Я)~ со всеми рубриками А, по формуле (7). Для этого высчитывается множество оценок по формуле (4) для параметров Я~~~~и А,. Для каждой пары (ч,'"',и,',"'):и„'"' = ~;,',"! и,'„" = я„"' находится и,'~' — степень соответствия р-го слова к-го ЭНТД~'-й рубрике. Показательр (Яэ„, А,.), характеризующий степень соответствия ЭНТД 1'~ рубрике А,, расчитывается по (8) и (9). Считается, что ЭНТД 1'» в наибольшей степени относится к той рубрике А,", степень принадлежности к которой является максимальной и рассчитывается по формуле (5) для параметров 5В, и А, .
Этап 2. Проверка условий пересмотра состава и структуры рубричного поля с помощью двух дополнительных показателей вида: Ф ~ "~ Ра ~ (~~~' А; ) = 1 1 ~/У ф я,У, р,(50„, А ) = 1 —— 1 ,Ж где р„(5О„А,) характеризует степень неопределенности при отнесении ЭНТД 51'.1„к рубрике А,, а о,(ЯЭ„А,) — степень несоответствия ЭНТД 50„рубрике А,. Реализация данного этапа предлагает вычисление показателей р,(5О„А ), о„(ЯЭ„, А,), о„(ЯЭ„А,) для всех ЭНТД и их анализ, по результатам которого осуществляется пересмотр состава и структуры рубричного поля. Этап 3.