Для студентов МГУ им. Ломоносова по предмету ДругиеОпределение семантической связности юридических документов на примере договоровОпределение семантической связности юридических документов на примере договоров
4,945966
2024-07-182024-07-18СтудИзба
Курсовая работа: Определение семантической связности юридических документов на примере договоров
Описание
Содержание
8 Заключение 29
1. Введение
За последние десятилетия накопилось огромное количество дан-ных, имеющих различное происхождение, вследствие чего появилась воз-можность проанализировать эти данные, а результаты использовать в образовании, науке и безопасности, а также для описания объектов или улучшения качества какой-либо продукции. Это можно сделать с помо-щью машинного обучения.
К такого рода задачам относится поиск несоответствий в деловых документах. В качестве документов в данной работе рассматриваются государственные контракты. Все они построены по одному и тому же шаблону и имеют определенную семантическую структуру. Люди, кото-рые работают с подобными документами, легко могут предсказать по предыдущей части документа следующую. Иногда в таких документах встречаются случаи мошенничества, опечатки и технические ошибки, на-пример, как описанные в [1, 2], так называемые ¾аномалии¿.
Необходимо научиться автоматически, проанализировав большой корпус ¾честных¿ документов на предмет их внутренней связности, опре-делять такого рода аномалии. В качестве аномалий могут выступать до-кументы или части документов, которые расходятся с общепризнанными шаблонами.
Учитывая объёмы данных, которые накопила каждая компания се-годня, и которые продолжает генерировать, причем всё в больших раз-мерах, можно сделать вывод, что рассматриваемая задача становится исключительно актуальной. Вследствие чего в данной работе предложе-ны несколько подходов к семантическому
| 1 | Введение | 3 | |
| 2 | Постановка задачи | 4 | |
| 3 | Обзор литературы | 6 | |
| 4 | Подготовка данных | 7 | |
| 4.1 | Подготовка текстовых данных . . . . . . . . . . . . . . . . | 7 | |
| 4.2 | TextTiling . . . . . . . . . . . . . . . . . . . . . . . . . . . . | 10 | |
| 4.2.1 Токенизация....................... | 11 | ||
| 4.2.2 Определение лексической оценки (The lexical score) | 11 | ||
| 4.2.3 Определениеграниц . . . . . . . . . . . . . . . . . . | 13 | ||
| 4.3 | Подготовка тестовых данных . . . . . . . . . . . . . . . . . | 15 | |
| 5 | Описание методов | 16 | |
| 5.1 | Тематическая модель текстовых блоков на основе LDA . . | 16 | |
| 5.2 | Подход на основе векорного представления слов . . . . . . | 17 | |
| 5.3 | Усовершенствованный подход на основе построенной тема- | ||
| тическоймодели ........................ | 19 | ||
| 5.4 | Анализ статистических данных . . . . . . . . . . . . . . . . | 22 | |
| 6 | Результаты | 26 | |
| 7 | Выводы | 28 | |
8 Заключение 29
1. Введение
За последние десятилетия накопилось огромное количество дан-ных, имеющих различное происхождение, вследствие чего появилась воз-можность проанализировать эти данные, а результаты использовать в образовании, науке и безопасности, а также для описания объектов или улучшения качества какой-либо продукции. Это можно сделать с помо-щью машинного обучения.
К такого рода задачам относится поиск несоответствий в деловых документах. В качестве документов в данной работе рассматриваются государственные контракты. Все они построены по одному и тому же шаблону и имеют определенную семантическую структуру. Люди, кото-рые работают с подобными документами, легко могут предсказать по предыдущей части документа следующую. Иногда в таких документах встречаются случаи мошенничества, опечатки и технические ошибки, на-пример, как описанные в [1, 2], так называемые ¾аномалии¿.
Необходимо научиться автоматически, проанализировав большой корпус ¾честных¿ документов на предмет их внутренней связности, опре-делять такого рода аномалии. В качестве аномалий могут выступать до-кументы или части документов, которые расходятся с общепризнанными шаблонами.
Учитывая объёмы данных, которые накопила каждая компания се-годня, и которые продолжает генерировать, причем всё в больших раз-мерах, можно сделать вывод, что рассматриваемая задача становится исключительно актуальной. Вследствие чего в данной работе предложе-ны несколько подходов к семантическому
Характеристики курсовой работы
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
1,05 Mb
Список файлов
Определение семантической связности юридических документов на примере договоров.doc
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
МГУ им. Ломоносова
Tortuga















