Диссертация (1137241)
Текст из файла
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИФедеральное государственное автономное образовательноеучреждение высшего профессионального образованияНАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»На правах рукописиИЛЬВОВСКИЙДмитрий АлексеевичМОДЕЛИ, АЛГОРИТМЫ И ПРОГРАММНЫЕКОМПЛЕКСЫ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХНА ОСНОВЕ РЕШЕТОК ЗАМКНУТЫХ ОПИСАНИЙСпециальность 05.13.18Математическое моделирование, численные методыи комплексы программДиссертация на соискание ученой степеникандидата технических наукНаучный руководительдоктор физико-математических наукС. О.
КузнецовМосква, 20142ОглавлениеВведение ...................................................................................................... 71. Теоретические основы моделирования ....................................... 161.1Моделирование текстовых данных ........................................... 161.2Анализ формальных понятий и решетки замкнутых описаний181.2.1Частично упорядоченные множества и решетки ..............
191.2.2Анализ формальных понятий .............................................. 221.2.3Решетки замкнутых описаний ............................................. 241.2.4Проекции решеток замкнутых описаний ........................... 241.3Прикладные онтологии ............................................................... 251.4Модели представления текста .................................................... 261.4.1Мешок слов ........................................................................... 261.4.2Деревья синтаксического разбора ...................................... 271.4.2.1Деревья составляющих .................................................
281.4.2.2Деревья зависимостей ................................................... 301.4.3Представление семантических отношений междупредложениями текста ....................................................................... 301.4.3.1Теория риторических структур .................................... 311.4.3.2Теория речевых актов ................................................... 361.4.3.3Теория K-представлений .............................................. 371.4.3.4Семантическая организация данных ...........................
391.4.3.5Теория представления дискурса .................................. 391.4.4Чаща разбора ......................................................................... 401.4.5Семантико-коммуникативное представление текста ....... 411.5Ядра в задаче машинного обучения .......................................... 4231.5.1Применение функции ядра в задачах машинного обучения431.5.2Некоторые виды ядер ........................................................... 441.5.2.1Ядра для строк ...............................................................
441.5.2.2Ядро на синтаксических деревьях ............................... 461.5.2.3Неглубокое семантическое ядро .................................. 471.5.2.4Ядро частичных поддеревьев ....................................... 482. Модели и методы поиска ответов на сложные запросы .......... 502.1Введение ....................................................................................... 502.2Обобщенная модель представления текстовых абзацев .........
512.3Применение чащ разбора для нахождения ответов на вопросы522.3.1Расширенные группы ........................................................... 532.3.2Различные подходы к выявлению сходства междутекстовыми абзацами ......................................................................... 552.3.3Несинтаксические связи, получаемые из семантическихтеорий 582.3.3.1Пример использования риторической структуры ...... 582.3.3.2Обобщение расширенных групп, использующихкоммуникативные действия ........................................................... 592.3.3.3Пример использования коммуникативных действий 602.4Вычисление обобщения чащ разбора ........................................
622.5Алгоритм вычисления приближенного обобщения чащразбора .................................................................................................... 642.5.1Проекции на чащах...............................................................
642.5.2Построение множества расширенных групп ..................... 652.5.3Обобщение чащ на проекциях ............................................ 6642.6Эксперименты по поиску с использованием сходства междуабзацами .................................................................................................. 672.6.1Схема эксперимента ............................................................. 672.6.2Результаты экспериментов .................................................. 682.7Оценка вычислительной сложности.......................................... 692.8Кластеризация результатов поиска ........................................... 712.8.1Решетка замкнутых описаний на чащах ............................
712.8.2Алгоритм кластеризации ..................................................... 732.8.2.1Кластеризация с использованием полного описания 732.8.2.2Кластеризация с использованием проекций ............... 732.8.32.9Пример кластеризации на проекциях ................................. 74Выводы ......................................................................................... 763. Применение ядер для классификации коротких текстов........ 793.1Введение ....................................................................................... 793.2Пример расширения деревьев разбора ...................................... 813.3Алгоритм построения расширенных деревьев ......................... 853.4Оценка улучшения качества классификации ...........................
873.5Оценка вычислительной сложности.......................................... 883.6Эксперименты .............................................................................. 893.7Выводы ......................................................................................... 944. Поиск тождественных денотатов в онтологиях и формальныхконтекстах ................................................................................................ 974.1Введение .......................................................................................
974.2Алгоритм поиска тождественных денотатов ........................... 994.2.1Преобразование онтологии в формальный контекст ...... 1004.2.2Построение множества формальных понятий................. 1034.2.3Критерии фильтрации формальных понятий .................. 1044.2.4Формирование списков тождественных объектов .......... 10654.3Альтернативные методы ........................................................... 1094.3.1Метод на основе экстенсиональной устойчивости понятия1094.3.2Метод на основе меры абсолютного сходства ................
1104.3.3Метод на основе расстояния Хэмминга ........................... 1114.4Экспериментальные исследования .......................................... 1114.4.14.4.1.1Схема эксперимента .................................................... 1114.4.1.2Результаты .................................................................... 1144.4.24.5Эксперименты на формальных контекстах .....................
111Эксперименты на прикладной онтологии........................ 1194.4.2.1Описание прикладной онтологии .............................. 1194.4.2.2Анализ результатов ..................................................... 120Выводы .......................................................................................
1225. Программные комплексы обработки текстовых данных наоснове решеток замкнутых описаний ............................................... 1245.1Программный комплекс FCART.............................................. 1245.1.1Введение ..............................................................................
1245.1.2Базовые понятия ................................................................. 1255.1.2.1Аналитические артефакты .......................................... 1255.1.2.2Решатели ....................................................................... 1265.1.2.3Визуализаторы ............................................................. 1265.1.2.4Отчёты .......................................................................... 1285.1.3Программная архитектура комплекса ..............................
1295.1.4Цикл работы на примере решеток замкнутых описаний 1315.1.5Использование плагинов и макросов ............................... 1345.1.6Основные возможности программного комплекса поработе с решетками замкнутых описаний ..................................... 13565.2Программный комплекс, предназначенный для обработки чащразбора .................................................................................................. 1375.2.1Архитектура комплекса ..................................................... 1375.2.2Модуль обработки чащ разбора ........................................
1385.2.3Ранжирование поисковых результатов ............................ 1395.2.4Обучение на абзацах .......................................................... 1395.2.5Модуль кластеризации с помощью решеток замкнутыхописаний ............................................................................................ 1395.2.6Риторический парсер.......................................................... 1395.2.7Модуль для выявления и обработки коммуникативныхдействий ............................................................................................
1405.2.8Модуль для построения кореферентных связей ............. 140Заключение ............................................................................................. 144Литература ............................................................................................. 147Приложения............................................................................................ 159Приложение 1 .......................................................................................
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.