Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 2

PDF-файл Автореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов), страница 2 Технические науки (27695): Диссертация - Аспирантура и докторантураАвтореферат (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов) - PDF, страница 2 (27695) - СтудИзба2019-03-122019-03-12zzyxelСтудИзба

Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов215

Описание файла

Файл "Автореферат" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

Смоленске. Объектом иссле ования являются теоретические основы автоматизированного анализа электронных неструктурированных текстовых документов в информационных системах. П е метом иссле ования являются интеллектуальные методы и алгоритмы анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик. Соответствие паспо т спе иальности. Диссертационное исследование соответствует пунктам паспорта специальности ВАК 05.13.17 вЂ” «Теоретические основы информатики»: п.

5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»; п. 6. «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке». Метр ологической базой исследования являются; теоретические основы информатики; системный анализ информационных процессов; методы теорий нечеткой логики и искусственных нейронных сетей; научные положения и выводы, сформулированные в трудах отечественных и зарубежных авторов по вопросам автоматизированного анализа текстов на естественном языке.

На чная новизна аботы заключается в разработке новых нейро-нечетких методов, комплекса моделей и алгоритмов автоматизированного анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик этих документов. Наиболее с ественные на чные ез льтаты пол ченные лично авто ом и выносимые на за ит заключаются в сле ю ем; 1.

Предложены мультимодельный метод и алгоритмы анализа ЭНТД, отличающиеся комбинированным использованием нечетко-логических, нейронечетких и вероятностных моделей, а также представленным в виде системы нечетких продукционных правил набором условий целесообразности их применения с учетом характера динамики рубрик, позволяющие повысить го ~- ность выделения рубрик и отнесения к конкретным рубрикам текстовых документов в условиях взаимозависимости рубрик и различного объема статистических данных.

2. Разработаны метод и алгоритмы мониторинга и изменения рубрик (слияния, разделения, появления новых и ликвидации рубрик) для ЭНТД, отличающиеся использованием процедур нечеткой динамической кластеризации этих документов с учетом синтаксических ролей слов, а также числа и характеристик рубрик, что позволяет обеспечить адаптивную актуализацию руорик в зависимости от структуры и показателей текстовых документов в условиях нестационарности состава тезауруса и важности ключевых слов рубрик. 3. Разработаны каскадная нейро-нечеткая модель и алгоритмы анализа ЭНТД, применяющие экспертную информацию для определения значимости ключевых слов при формализации н последующем рубрицировании текстовых документов на основе нейро-нечеткого классификатора, что позволяет анализировать документы небольшого размера на основе их унифицированного представления.

4, Разработаны нечетко-логическая модель и алгоритмы анализа ЭНТД документов, отличающиеся использованием синтаксических связей и ролей слов, а также нечеткой оценкой различий между документами в и-мерном пространстве признаков текстов при построении нечеткого дерева решений для отнесения документа к конкретной рубрике, что позволяет автоматизировать процедуру анализа с учетом степеней принадлежности документов к различным рубрикам в условиях взаимозависимости их тезаурусов, а также недостатка статистической информации при формировании новых рубрик.

Тео етическая и п актическая значимость исследования состоит в развитии научных основ применения современных информационных интеллектуальных технологий для автоматизированного анализа и рубрицирования ЭНТД с использованием средств вычислительной техники для повышения эффективности информационных систем органов государственного и муниципального управления. П актическая значимость основных положений диссертации также подтверждается результатами использования разработанных программных средств информационной системы автоматизированного анализа электронных неструктурированных текстовых документов в Администрации Смоленской области и учебном процессе филиала НИУ «МЭИ» в г.

Смоленске. Ап оба ия аботы. Основные положения и выводы диссертационной работы докладывались на таких научных мероприятиях как: 1Ч Международная научно-техническая конференция <сЭнергетика, информатика, инновации» (Смоленск, 2013), Ч Международная научно-техническая конференция «Энергетика„информатика, инновации» (Смоленск, 2014), ХИ Международная нау ~- но-техническая конференция «Информационные технологии, энергетика и экономика» (Смоленск, 2015), Ч Международная научно-практическая конференция «Математическое моделирование, информатика, экономика» (Смоленск„ 2015), Х1П международная научно-техническая конференция «Информационные технологии, энергетика и экономика» (Смоленск 2015), Ч1 Международная научно-техническая конференция «Энергетика, информатика, инновации» 1Смоленскт 2016), Х1Ч Международная научно-техническая конференция «Интеллектуальные информационные технологии, энергетика и экономика» 1Смоленск, 2017).

Публикации, По теме диссертации опубликовано !! работ общим объемом 3 п.л., в том числе 3 статьи в научных журналах, рекомендовспшых ВАК РФ. Авторский вклад вЂ” 2,3 п.л. Ст 'кт а и объем аботы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 123 наименова- ние, и одного приложения. Диссертация содержит 148 страниц машинописного текста, б4 рисунка и 12 таблиц. СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы, определены научные задачи, выделены объекты и предметы исследования, отмечены научная новизна, теоретическая и практическая значимости работы, сформулированы положения, выносимые на защиту, приведены сведения об апробации, публикациях, структуре и объеме диссертации.

В первой главе проведен анализ современных подходов к автоматизированному анализу текста, выделены основные способы его формализации, а также определены перспективы использования методов автоматизированного анализа текстов для рубрицирования электронных неструктурированных текстовых документов. Анализ существующих текстовых документов показал, что при выборе методов и алгоритмов их автоматизированной обработки необходимо учитывать характеристики как самих документов, так и рубричного поля, В диссертации предложено в качестве характеристик электронных документов рассматривать: структурированность, обьем, частоту встречаемости значимых слов и степень их синтаксической связанности. Показано, что основная часть электронных сообщений относится к неструктурированным документам, характеризующимся высокой степенью связанности слов.

В качестве характеристик рубричного поля были выделены: степень пересечения рубрик, объем накопленной статистической информации по каждой рубрике, а также степень изменчивости тезауруса рубрик. Анализ выделенных классификационных признаков ЭНТД, особенностей рубричного поля, а также существующих подходов к формализации документов для их автоматизированной обработки позволил выделить наиболее перспективные способы рубрицирования электронных сообщений, к которым можно отнести нейросетевые способы, способы с использованием дерева решений, на основе функций нечеткого логического вывода, с использованием экспертной оценки, а также такие вероятностные способы, как ТЕ-1ВГ и ТР-К10Г 1рис.

1), В то же время, указанные способы не позволяют учесть в полной мере перечисленные выше особенности сообщений как ЭНТД. Способы рубрнннровання С нспользоааннсм рсшаюшнх правил На основе Функннй полобнв На основе гснспшеского а:норнгма Вероятностный ялвссифггхатор Линейный На основе меюла косою о Канон»чавкай генепзчсскнй алгорнтм Байссов Метов Роше АО алгоритм На основе магрнцы полобня Зологонскатель СК2 влгорнтч На основе могола опорных всктороа Генетический Ехр!ога Ся 5 юзгоргйм аыорнзм на основе устсйчнаого сосгояння На основе жгзлного гьчгоргньза Байссоао сетевое обученне На основе меюла Ь блгзжай~ннх соселей На основе регрессах Гнбрнлный шнеточескнй алгорнтм На основе функций «гзнхурентного схолстьв (Рйгб. бзункцггн) На ошювс ззиола нанысньшнх квалршов Нейрос- етевыее С нснользовавнем лерева решеонй На основе Функций аечйткого логнчьккого вываля С нсоользованцсм '>кснсргнай Оценки трнор тр-иар Г Ня оснош нечеткого ~ нервна решенно С ! нснользоввннсм ~ весовьш козффнцнснтов ~ Ня основе ззсйрЗ нечеткого клвсснфнкнтвра Рисунок 1 вЂ” Перспективные способы анализа и рубридирования ЭНТД Это определяет необходимость разработки новых нейро-нечетких методов, комплекса моделей и алгоритмов автоматизированного анализа электронных неструктурированных текстовых документов, а также мониторинга и изменения рубрик этих документов (на рис, 1 выделены пунктиром).

Вторая глава посвящена разработке мультимодельного метода анализа ЭНТД с комбинированным использованием нечетко-логических, каскадной нейро-нечеткой и вероятностных моделей, а также метода мониторинга и изменения рубрик текстовых документов на основе их нечеткой динамической кластеризации. В диссертации предложено и представлено описание шести типовых ситуаций рубрицировання ЭНТД, выделенных с учетом размера ЭНТД, степени пересечения рубрик, достаточности статистических данных для эффективного использования вероятностных моделей анализа ЭНТД, а также указано соответствие этих ситуаций предлагаемым моделям для их эффективного рубрицирования.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.