Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 2
Описание файла
Файл "Автореферат" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Смоленске. Объектом иссле ования являются теоретические основы автоматизированного анализа электронных неструктурированных текстовых документов в информационных системах. П е метом иссле ования являются интеллектуальные методы и алгоритмы анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик. Соответствие паспо т спе иальности. Диссертационное исследование соответствует пунктам паспорта специальности ВАК 05.13.17 — «Теоретические основы информатики»: п.
5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 6. «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке». Метр ологической базой исследования являются; теоретические основы информатики; системный анализ информационных процессов; методы теорий нечеткой логики и искусственных нейронных сетей; научные положения и выводы, сформулированные в трудах отечественных и зарубежных авторов по вопросам автоматизированного анализа текстов на естественном языке.
На чная новизна аботы заключается в разработке новых нейро-нечетких методов, комплекса моделей и алгоритмов автоматизированного анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик этих документов. Наиболее с ественные на чные ез льтаты пол ченные лично авто ом и выносимые на за ит заключаются в сле ю ем; 1.
Предложены мультимодельный метод и алгоритмы анализа ЭНТД, отличающиеся комбинированным использованием нечетко-логических, нейронечетких и вероятностных моделей, а также представленным в виде системы нечетких продукционных правил набором условий целесообразности их применения с учетом характера динамики рубрик, позволяющие повысить го ~- ность выделения рубрик и отнесения к конкретным рубрикам текстовых документов в условиях взаимозависимости рубрик и различного объема статистических данных.
2. Разработаны метод и алгоритмы мониторинга и изменения рубрик (слияния, разделения, появления новых и ликвидации рубрик) для ЭНТД, отличающиеся использованием процедур нечеткой динамической кластеризации этих документов с учетом синтаксических ролей слов, а также числа и характеристик рубрик, что позволяет обеспечить адаптивную актуализацию руорик в зависимости от структуры и показателей текстовых документов в условиях нестационарности состава тезауруса и важности ключевых слов рубрик. 3. Разработаны каскадная нейро-нечеткая модель и алгоритмы анализа ЭНТД, применяющие экспертную информацию для определения значимости ключевых слов при формализации н последующем рубрицировании текстовых документов на основе нейро-нечеткого классификатора, что позволяет анализировать документы небольшого размера на основе их унифицированного представления.
4, Разработаны нечетко-логическая модель и алгоритмы анализа ЭНТД документов, отличающиеся использованием синтаксических связей и ролей слов, а также нечеткой оценкой различий между документами в и-мерном пространстве признаков текстов при построении нечеткого дерева решений для отнесения документа к конкретной рубрике, что позволяет автоматизировать процедуру анализа с учетом степеней принадлежности документов к различным рубрикам в условиях взаимозависимости их тезаурусов, а также недостатка статистической информации при формировании новых рубрик.
Тео етическая и п актическая значимость исследования состоит в развитии научных основ применения современных информационных интеллектуальных технологий для автоматизированного анализа и рубрицирования ЭНТД с использованием средств вычислительной техники для повышения эффективности информационных систем органов государственного и муниципального управления. П актическая значимость основных положений диссертации также подтверждается результатами использования разработанных программных средств информационной системы автоматизированного анализа электронных неструктурированных текстовых документов в Администрации Смоленской области и учебном процессе филиала НИУ «МЭИ» в г.
Смоленске. Ап оба ия аботы. Основные положения и выводы диссертационной работы докладывались на таких научных мероприятиях как: 1Ч Международная научно-техническая конференция <сЭнергетика, информатика, инновации» (Смоленск, 2013), Ч Международная научно-техническая конференция «Энергетика„информатика, инновации» (Смоленск, 2014), ХИ Международная нау ~- но-техническая конференция «Информационные технологии, энергетика и экономика» (Смоленск, 2015), Ч Международная научно-практическая конференция «Математическое моделирование, информатика, экономика» (Смоленск„ 2015), Х1П международная научно-техническая конференция «Информационные технологии, энергетика и экономика» (Смоленск 2015), Ч1 Международная научно-техническая конференция «Энергетика, информатика, инновации» 1Смоленскт 2016), Х1Ч Международная научно-техническая конференция «Интеллектуальные информационные технологии, энергетика и экономика» 1Смоленск, 2017).
Публикации, По теме диссертации опубликовано !! работ общим объемом 3 п.л., в том числе 3 статьи в научных журналах, рекомендовспшых ВАК РФ. Авторский вклад — 2,3 п.л. Ст 'кт а и объем аботы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 123 наименова- ние, и одного приложения. Диссертация содержит 148 страниц машинописного текста, б4 рисунка и 12 таблиц. СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы, определены научные задачи, выделены объекты и предметы исследования, отмечены научная новизна, теоретическая и практическая значимости работы, сформулированы положения, выносимые на защиту, приведены сведения об апробации, публикациях, структуре и объеме диссертации.
В первой главе проведен анализ современных подходов к автоматизированному анализу текста, выделены основные способы его формализации, а также определены перспективы использования методов автоматизированного анализа текстов для рубрицирования электронных неструктурированных текстовых документов. Анализ существующих текстовых документов показал, что при выборе методов и алгоритмов их автоматизированной обработки необходимо учитывать характеристики как самих документов, так и рубричного поля, В диссертации предложено в качестве характеристик электронных документов рассматривать: структурированность, обьем, частоту встречаемости значимых слов и степень их синтаксической связанности. Показано, что основная часть электронных сообщений относится к неструктурированным документам, характеризующимся высокой степенью связанности слов.
В качестве характеристик рубричного поля были выделены: степень пересечения рубрик, объем накопленной статистической информации по каждой рубрике, а также степень изменчивости тезауруса рубрик. Анализ выделенных классификационных признаков ЭНТД, особенностей рубричного поля, а также существующих подходов к формализации документов для их автоматизированной обработки позволил выделить наиболее перспективные способы рубрицирования электронных сообщений, к которым можно отнести нейросетевые способы, способы с использованием дерева решений, на основе функций нечеткого логического вывода, с использованием экспертной оценки, а также такие вероятностные способы, как ТЕ-1ВГ и ТР-К10Г 1рис.
1), В то же время, указанные способы не позволяют учесть в полной мере перечисленные выше особенности сообщений как ЭНТД. Способы рубрнннровання С нспользоааннсм рсшаюшнх правил На основе Функннй полобнв На основе гснспшеского а:норнгма Вероятностный ялвссифггхатор Линейный На основе меюла косою о Канон»чавкай генепзчсскнй алгорнтм Байссов Метов Роше АО алгоритм На основе магрнцы полобня Зологонскатель СК2 влгорнтч На основе могола опорных всктороа Генетический Ехр!ога Ся 5 юзгоргйм аыорнзм на основе устсйчнаого сосгояння На основе жгзлного гьчгоргньза Байссоао сетевое обученне На основе меюла Ь блгзжай~ннх соселей На основе регрессах Гнбрнлный шнеточескнй алгорнтм На основе функций «гзнхурентного схолстьв (Рйгб. бзункцггн) На ошювс ззиола нанысньшнх квалршов Нейрос- етевыее С нснользовавнем лерева решеонй На основе Функций аечйткого логнчьккого вываля С нсоользованцсм '>кснсргнай Оценки трнор тр-иар Г Ня оснош нечеткого ~ нервна решенно С ! нснользоввннсм ~ весовьш козффнцнснтов ~ Ня основе ззсйрЗ нечеткого клвсснфнкнтвра Рисунок 1 — Перспективные способы анализа и рубридирования ЭНТД Это определяет необходимость разработки новых нейро-нечетких методов, комплекса моделей и алгоритмов автоматизированного анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик этих документов (на рис, 1 выделены пунктиром).
Вторая глава посвящена разработке мультимодельного метода анализа ЭНТД с комбинированным использованием нечетко-логических, каскадной нейро-нечеткой и вероятностных моделей, а также метода мониторинга и изменения рубрик текстовых документов на основе их нечеткой динамической кластеризации. В диссертации предложено и представлено описание шести типовых ситуаций рубрицировання ЭНТД, выделенных с учетом размера ЭНТД, степени пересечения рубрик, достаточности статистических данных для эффективного использования вероятностных моделей анализа ЭНТД, а также указано соответствие этих ситуаций предлагаемым моделям для их эффективного рубрицирования.