Для студентов МГТУ им. Н.Э.Баумана по предмету АвтоматизацияАвтоматическое восстановление хронологии событий по новостным публикациям на русском языкеАвтоматическое восстановление хронологии событий по новостным публикациям на русском языке
2024-05-252024-05-25СтудИзба
ВКР: Автоматическое восстановление хронологии событий по новостным публикациям на русском языке
Описание
Содержание
Введение......................................................................................................................... 3
Постановка задачи....................................................................................................... 4
Обзор литературы........................................................................................................ 5
Глава 1. Описание применяемых методов и алгоритмов.............................. 6
1.1. Линейная регрессия......................................................................... 6
1.2. Наивный байесовский классификатор...................................... 7
1.3. Дерево принятия решений............................................................. 9
Глава 2. Сбор и обработка данных...................................................................... 11
2.1. Формирование новостной коллекции..................................... 11
2.2. Подготовка данных к обучению............................................... 11
Глава 3. Поиск темпоральных выражений....................................................... 13
3.1. Разметка обучающей коллекции............................................... 13
3.2. Составление лингвистических правил................................... 14
3.3. Применение классификатора и поиск
темпоральных выражений................................................................... 15
Глава 4. Результаты и выводы.............................................................................. 18
4.1. Сравнение классификаторов...................................................... 18
4.2. Итоговая сортировка..................................................................... 20
Заключение.................................................................................................................. 23
Список литературы................................................................................................... 24
Приложение................................................................................................................. 25
2
Введение
Новостные публикации часто содержат в себе описания всевозможных событий, которые происходят в различное время. Некоторые последовательные и относящиеся друг к другу события могут быть указаны в различных новостных статьях. Зачастую, людям интересно проследить хронологию событий, узнать, как они развивались, что и когда происходило или произойдет.
Решение задачи, поставленной в данной работе, поможет выделить среди многообразия новостных публикаций события с соответствующими им датами и упорядочить их хронологически.
3
Постановка задачи
Целью данной работы является разработка программы, способной из некоторой новостной коллекции на русском языке выделить темпоральные выражения вместе с соответствующими им событиями и отсортировать их в порядке хронологии.
Темпоральным выражением будем называть последовательность символов (слова, цифры и знаки), которая обозначает время, выраженное моментом времени, периодом или частотой.
Для достижения поставленной цели необходимо реализовать следующие задачи:
Введение......................................................................................................................... 3
Постановка задачи....................................................................................................... 4
Обзор литературы........................................................................................................ 5
Глава 1. Описание применяемых методов и алгоритмов.............................. 6
1.1. Линейная регрессия......................................................................... 6
1.2. Наивный байесовский классификатор...................................... 7
1.3. Дерево принятия решений............................................................. 9
Глава 2. Сбор и обработка данных...................................................................... 11
2.1. Формирование новостной коллекции..................................... 11
2.2. Подготовка данных к обучению............................................... 11
Глава 3. Поиск темпоральных выражений....................................................... 13
3.1. Разметка обучающей коллекции............................................... 13
3.2. Составление лингвистических правил................................... 14
3.3. Применение классификатора и поиск
темпоральных выражений................................................................... 15
Глава 4. Результаты и выводы.............................................................................. 18
4.1. Сравнение классификаторов...................................................... 18
4.2. Итоговая сортировка..................................................................... 20
Заключение.................................................................................................................. 23
Список литературы................................................................................................... 24
Приложение................................................................................................................. 25
2
Введение
- жизни современного человека интернет играет огромную роль. Основная причина этого заключается в информативности упомянутого ресурса. С помощью интернета люди могут быстро получать информацию о последних событиях во всем мире.
Новостные публикации часто содержат в себе описания всевозможных событий, которые происходят в различное время. Некоторые последовательные и относящиеся друг к другу события могут быть указаны в различных новостных статьях. Зачастую, людям интересно проследить хронологию событий, узнать, как они развивались, что и когда происходило или произойдет.
Решение задачи, поставленной в данной работе, поможет выделить среди многообразия новостных публикаций события с соответствующими им датами и упорядочить их хронологически.
3
Постановка задачи
Целью данной работы является разработка программы, способной из некоторой новостной коллекции на русском языке выделить темпоральные выражения вместе с соответствующими им событиями и отсортировать их в порядке хронологии.
Темпоральным выражением будем называть последовательность символов (слова, цифры и знаки), которая обозначает время, выраженное моментом времени, периодом или частотой.
Для достижения поставленной цели необходимо реализовать следующие задачи:
- Формирование обучающей и тестовой коллекции новостных публикаций.
- Разделение полученных текстов новостей на предложения, а предложений на слова.
- Разметка обучающей коллекции с точки зрения наличия
- Составление лингвистических правил для применения методов машинного обучения;
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
2
Размер
228 Kb
Список файлов
Автоматическое восстановление хронологии событий по новостным публикациям на русском языке.doc