Для студентов РЭУ им. Плеханова по предмету ДругиеПрименение методов машинного обучения в области обработки естественного языкаПрименение методов машинного обучения в области обработки естественного языка
2025-02-092025-02-09СтудИзба
ВКР: Применение методов машинного обучения в области обработки естественного языка
Описание
РЕФЕРАТ
Пояснительная записка 54стр., рис.12, табл.16, ист.7, прил. 0.
ОБРАБОТКА ТЕКСТА, АЛГОРИТМЫ, МЕТОДЫ, РАЗРАБОТКА, ОЦЕНКА РЕЗУЛЬТАТОВ
Объектом исследования являются методы машинного обучения
Цель работы рассмотреть различные методы машинного обучения и оценить их результативность
В работе представлены такие наивные алгоритмы как “Шар”, “Эвристики”, “Метод k-ближайших соседей”, “Максимальное отклонение по координатам”, метод опорных векторов, наивный байесовский классификатор. Рассмотрены методы оценки алгоритмов. Сделаны выводы о работе различных методов алгоритмов. Рассчитывается себестоимость исследования.
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
В настоящей пояснительной записке применяют следующие термины с соответствующими определениями:
Классификация — это процесс группировки объектов по их общим признакам, свойствам или характеристикам для упрощения их понимания и работы с ними.
Кластеризация — это метод машинного обучения, который группирует объекты в кластеры на основе их схожих характеристик, чтобы обнаружить скрытые структуры в данных.
TF-IDF (Term Frequency-Inverse Document Frequency) - это модель, которая состоит из трех этапов. После прохождения слова через эту модель, получается оценка этого слова, которая учитывает как его важность, так и частоту вхождений.
Метод k-ближайших соседей — метрический алгоритм, предназначенный для классификации.
Парсер — это программное обеспечение, которое анализирует и интерпретирует текст, обычно для извлечения информации или для выполнения задач, таких как языковая обработка и машинное обучение.
Перцентиль — это статистическая величина, которая указывает на то, что процент от общего количества значений в выборке находится ниже или выше указанного значения.
Содержание
Введение
1. Цели кластеризации:
1.1. Цели классификации:
1.2. Формализация и постановка задачи
1.3. Обработка текста
1.4. Выделение признаков
1.4.1. Мешок слов (Bag of words)
1.4.2. Мешок n-грамм (Bag of n-grams)
1.4.3. TF-IDF
1.4.4. Метрика Минковского
1.4.5. Косинусное сходство
1.4.6. Расстояние Махаланобиса
1.5. Классификаторы
1.5.1. Методы оценки результата алгоритма
1.5.2. Точность
1.5.3. True positive rate
1.5.4. False positive rate
1.5.5. F-мера
1.6.6. ROC - кривая
2. Наивные алгоритмы
2.1. Шар
2.1.1. Оценка асимптотической сложности и результатов
2.2. Максимальное отклонение по координатам
2.2.1. Оценка асимптотической сложности и результатов
2.3. Эвристики
2.4. Метод ближайшего соседа
2.4.1. Метод k-ближайших соседей
2.4.2. Метод взвешенных ближайших соседей
3. Метод опорных векторов
3.1. Описание
3.2. Формализация
3.3. Ядра
4. Наивный байесовский классификатор
4.1. Описание
4.2. Формализация
4.3. Применение к задаче
4.3.1. Мультиномиальное (полиномиальное) распределение
4.3.2. Распределение Бернулли
4.4. Оценка результатов
5. Экономическое обоснование ВКР
5.1. Концепция
5.2. Продолжительность написания ВКР
5.3. Статьи калькуляции для расчёта себестоимости ВКР
5.4. Расходы на оплату труда
5.5. Отчисления на социальные нужды
5.6. Затраты на материалы
5.7. Затраты по работам, выполняемым сторонними организациями
5.8. Расходы на содержание и эксплуатацию оборудования
5.9. Амортизационные отчисления
5.10. Программное обеспечение
5.11. Накладные расходы
5.12. Себестоимость ВКР
5.13. Вывод по экономическому обоснованию
Заключение
Список использованных источников
Пояснительная записка 54стр., рис.12, табл.16, ист.7, прил. 0.
ОБРАБОТКА ТЕКСТА, АЛГОРИТМЫ, МЕТОДЫ, РАЗРАБОТКА, ОЦЕНКА РЕЗУЛЬТАТОВ
Объектом исследования являются методы машинного обучения
Цель работы рассмотреть различные методы машинного обучения и оценить их результативность
В работе представлены такие наивные алгоритмы как “Шар”, “Эвристики”, “Метод k-ближайших соседей”, “Максимальное отклонение по координатам”, метод опорных векторов, наивный байесовский классификатор. Рассмотрены методы оценки алгоритмов. Сделаны выводы о работе различных методов алгоритмов. Рассчитывается себестоимость исследования.
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
В настоящей пояснительной записке применяют следующие термины с соответствующими определениями:
Классификация — это процесс группировки объектов по их общим признакам, свойствам или характеристикам для упрощения их понимания и работы с ними.
Кластеризация — это метод машинного обучения, который группирует объекты в кластеры на основе их схожих характеристик, чтобы обнаружить скрытые структуры в данных.
TF-IDF (Term Frequency-Inverse Document Frequency) - это модель, которая состоит из трех этапов. После прохождения слова через эту модель, получается оценка этого слова, которая учитывает как его важность, так и частоту вхождений.
Метод k-ближайших соседей — метрический алгоритм, предназначенный для классификации.
Парсер — это программное обеспечение, которое анализирует и интерпретирует текст, обычно для извлечения информации или для выполнения задач, таких как языковая обработка и машинное обучение.
Перцентиль — это статистическая величина, которая указывает на то, что процент от общего количества значений в выборке находится ниже или выше указанного значения.
Содержание
Введение
1. Цели кластеризации:
1.1. Цели классификации:
1.2. Формализация и постановка задачи
1.3. Обработка текста
1.4. Выделение признаков
1.4.1. Мешок слов (Bag of words)
1.4.2. Мешок n-грамм (Bag of n-grams)
1.4.3. TF-IDF
1.4.4. Метрика Минковского
1.4.5. Косинусное сходство
1.4.6. Расстояние Махаланобиса
1.5. Классификаторы
1.5.1. Методы оценки результата алгоритма
1.5.2. Точность
1.5.3. True positive rate
1.5.4. False positive rate
1.5.5. F-мера
1.6.6. ROC - кривая
2. Наивные алгоритмы
2.1. Шар
2.1.1. Оценка асимптотической сложности и результатов
2.2. Максимальное отклонение по координатам
2.2.1. Оценка асимптотической сложности и результатов
2.3. Эвристики
2.4. Метод ближайшего соседа
2.4.1. Метод k-ближайших соседей
2.4.2. Метод взвешенных ближайших соседей
3. Метод опорных векторов
3.1. Описание
3.2. Формализация
3.3. Ядра
4. Наивный байесовский классификатор
4.1. Описание
4.2. Формализация
4.3. Применение к задаче
4.3.1. Мультиномиальное (полиномиальное) распределение
4.3.2. Распределение Бернулли
4.4. Оценка результатов
5. Экономическое обоснование ВКР
5.1. Концепция
5.2. Продолжительность написания ВКР
5.3. Статьи калькуляции для расчёта себестоимости ВКР
5.4. Расходы на оплату труда
5.5. Отчисления на социальные нужды
5.6. Затраты на материалы
5.7. Затраты по работам, выполняемым сторонними организациями
5.8. Расходы на содержание и эксплуатацию оборудования
5.9. Амортизационные отчисления
5.10. Программное обеспечение
5.11. Накладные расходы
5.12. Себестоимость ВКР
5.13. Вывод по экономическому обоснованию
Заключение
Список использованных источников
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
364,01 Kb
Список файлов
2024VKR989325ShIPILOV_15554968.docx