Главная » Учебные материалы » Автоматизация » Выпускные квалификационные работы (ВКР) » МГТУ им. Н.Э.Баумана » 5 семестр » Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам
Для студентов МГТУ им. Н.Э.Баумана по предмету АвтоматизацияАвтоматическое определение стилистической принадлежности текстов по их статистическим параметрамАвтоматическое определение стилистической принадлежности текстов по их статистическим параметрам
2024-05-25СтудИзба

ВКР: Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам

Описание

СОДЕРЖАНИЕ
ВВЕДЕНИЕ..............................................................................................................3
ГЛАВА 1. Теоретические основания для автоматической стилистической
диагностики текстов на русском языке.................................................................6
1.1.Функциональные стили русского языка и их характеристики ..............6
1.1.1.Научный стиль....................................................................................13
1.1.2.Художественный стиль......................................................................14
1.1.3.Деловой стиль .....................................................................................14
1.1.4.Публицистический стиль...................................................................16
1.2.Классификация текстовой информации.................................................17
1.2.1.Методы дискриминантного анализа ................................................21
1.2.2. Оценка качества работы алгоритма классификации текстовой
информации .....................................................................................................24
ГЛАВА 2. КОМПЬЮТЕРНЫЙ ИНСТРУМЕНТ ДЛЯ ПРОВЕДЕНИЯ
СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ ..........26
2.1.Используемое программное обеспечение..............................................26
2.2.Требования к входным данным...............................................................26
2.3.Алгоритм работы компьютерного инструмента статистической
обработки текстов ..............................................................................................28
2.4.Интерфейс компьютерного инструмента проведения статистической
обработки текстов ..............................................................................................31
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ВОЗМОЖНОСТИ
АВТОМАТИЧЕСКОЙ СТИЛИСТИЧЕСКОЙ КЛАССИФИКАЦИИ
РУССКОЯЗЫЧНЫХ ТЕКСТОВ..........................................................................34
3.1.Подготовка корпусов................................................................................34
3.2.Подбор характеризующих признаков.....................................................34
3.3.Ход экспериментов...................................................................................36
3.4.Анализ данных ..........................................................................................37
3.4.1.Анализ лексико–морфологических индексов .................................37
3.4.2.Анализ материала на основе данных о частеречной сочетаемости
41
3.4.3.Параметры длины слова и длины предложения .............................45
1

3.5. Инструмент автоматического определения стилистической
принадлежности текстов........................................................................ 47

3.5.1. Описание алгоритма стилистической принадлежности текстов.. 47

3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов............................................. 50

ЗАКЛЮЧЕНИЕ........................................................................................ 53

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ....................................... 55

ПРИЛОЖЕНИЕ А. Код программы автоматического определения

стилистической принадлежности текстов.................................................. 63

ПРИЛОЖЕНИЕ Б. Перечень текстов, использованных при создании

корпусов.................................................................................................. 69















































2

ВВЕДЕНИЕ


  • последние годы очень быстрыми темпами развивается область обработки естественных языков (англ. Natural Language Processing, NLP). Во многом это связано с тем, что с каждым годом объём текстовой информации,

используемой человечеством, увеличивается, и растёт потребность в более эффективных алгоритмах обработки и анализа документов, написанных на естественных языках. Особо важную роль играет возможность классифицировать получаемую информацию, используя компьютерные инструменты.

Таким образом, актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматической обработки текстов и востребованностью новых методов классификации текстовой информации при помощи компьютеров.

Материалом исследования послужили данные четырёх корпусов текстов, представляющих различные функциональные стили русского языка (художественный, научный, деловой и публицистический). Объём каждого корпуса – 500 тыс. словоупотреблений.

Целью настоящего исследования является разработка компьютерного инструмента автоматического определения стилистической принадлежности текстов.

В соответствии с поставленной целью работы сформулированы следующие задачиисследования:

проанализировать ряд теоретических вопросов, связанных с выделением функциональных стилей текстов современного русского языка;

выделить отличительные квантитативные характеристики для каждого стиля;

сравнить собранные корпуса текстов, опираясь на выделенные характеристики;

3

проанализировать различные методы классификации текстовой информации;

создать авторский компьютерный инструмент определения

стилистической принадлежности для текстов на русском языке;

использовать разработанный компьютерный инструмент для обработки сформированных корпусов;

оценить возможность автоматического определения стилистической принадлежности текстов по выделенным

характеристикам.

Методы исследования, использованные в работе, включают стилистический и статистический анализ корпусов текстов русского языка.

Программное обеспечение, необходимое для проведения исследования, было подготовлено на языке python версии 2.7.13 и представляет собой реализацию алгоритма статистической обработки текста

и определения его стилистической принадлежности. Всем

Характеристики ВКР

Учебное заведение
Семестр
Просмотров
1
Размер
763 Kb

Список файлов

Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам.doc
Обратите внимание, что данная работа уже сдавалась в МГТУ им. Н.Э.Баумана, а также её могли покупать другие студенты, поэтому её уникальность может быть нулевой. Для получения уникальной работы воспользуйтесь услугами.

Комментарии

Поделитесь ссылкой:
Цена: 1 500 руб.
Расширенная гарантия +3 недели гарантии, +10% цены
Рейтинг ждёт первых оценок
0 из 5
Оставьте первую оценку и отзыв!
Поделитесь ссылкой:
Сопутствующие материалы
Вы можете использовать ВКР для примера, а также можете ссылаться на неё в своей работе. Авторство принадлежит автору работы, поэтому запрещено копировать текст из этой работы для любой публикации, в том числе в свою выпускную квалификационную работу в учебном заведении, без правильно оформленной ссылки. Читайте как правильно публиковать ссылки в своей работе.
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6295
Авторов
на СтудИзбе
313
Средний доход
с одного платного файла
Обучение Подробнее