Для студентов МГУ им. Ломоносова по предмету Любой или несколько предметовЛингвистичекие проблемы корпуса старославянского языкаЛингвистичекие проблемы корпуса старославянского языка
4,9551035
2024-09-192024-09-19СтудИзба
ВКР: Лингвистичекие проблемы корпуса старославянского языка
Описание
Содержание
Введение
Глава 1. Современный опыт разработки текстовых корпусов и средств автоматической обработки для них.
1.1. Общая характеристика развития корпусной лингвистики в конце XX – начале XXI вв.
1.1.1. Старославянский язык.
1.1.2. Индоевропейские языки.
1.1.3. Языки других семей.
1.1.4. Современная корпусная лингвистика и исследования старославянского языка: перспективы соразвития.
1.2. Подготовительный этап.
1.2.1. Сбор текстов.
1.2.2. Графическое представление.
1.2.3. Токенизация.
1.3. Частеречная разметка.
1.3.1. Общая характеристика частеречной разметки как лингвистической проблемы.
1.3.2. Набор тэгов: самостоятельная разработка или заимствование?
1.3.3. Тэггеры: характеристика текущего состояния.
1.3.4. Частеречная разметка как сфера поисков исследователя.
1.4. Лемматизация.
1.4.1. Определение лемматизации и основные области её применения в корпусной лингвистике.
1.4.2. Лемматизация как задача автоматической обработки естественного языка.
1.4.3. Лемматизаторы старославянского языка.
1.4.4. Лемматизация при создании корпуса старославянского языка.
1.5. Выводы.
Глава 2. Базовая теоретическая характеристика языка текстов старославянского канона.
2.1. Старославянский язык: определение, особенности, периодизация.
2.2. Графические системы, репрезентирующие тексты канона старославянского языка.
2.3. Частеречный состав старославянского языка.
2.4. Выводы.
Глава 3. Старославянский язык как объект составления корпуса.
3.1. Определение текстового состава корпуса старославянского языка.
3.2. Автоматическая предобработка некоторых текстов старославянского языка.
3.3. Частеречная разметка документов в корпусе старославянского языка.
3.4. Лемматизация токенов старославянского языка.
3.5. Выводы.
Глава 4. Программная реализация корпуса старославянского языка.
4.1. Модуль предобработки.
4.2. Модуль представления.
4.3. Выводы.
Заключение
Список использованной литературы
Введение
За то время, пока данная работа находилась в процессе написания, из сети исчезло несколько корпусов старославянского языка. Последним из них ненадолго стал Corpus Cyrillo-Methodianum Helsingiense, корпус старославянского языка университета Хельсинки [CCMH]. Этот корпус и работа с ним были главным источником вдохновения при написании данной работы. Сама возможность его исчезновения сделала эту работу существенно более важной, чем казалось в момент её начала: в данный момент проблемой выступает не только создание нового корпуса, но и сохранение уже существующих.Корпусы языков с небольшим количеством известного текстологического материала, к каковым относится старославянский, уязвимы: понимание этого сейчас сильно, как никогда, как и понимание того, что некоторые корпусы, возможно, придётся пересоздавать.
Характеристики ВКР
Учебное заведение
Семестр
Просмотров
1
Размер
452,56 Kb
Список файлов
Лингвистичекие проблемы корпуса старославянского языка.docx
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
МГУ им. Ломоносова
Tortuga
















