Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний". PDF-файл из архива "Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИФедеральное государственное автономное образовательноеучреждение высшего профессионального образованияНАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»На правах рукописиИЛЬВОВСКИЙДмитрий АлексеевичМОДЕЛИ, АЛГОРИТМЫ И ПРОГРАММНЫЕКОМПЛЕКСЫ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХНА ОСНОВЕ РЕШЕТОК ЗАМКНУТЫХ ОПИСАНИЙСпециальность 05.13.18Математическое моделирование, численные методыи комплексы программДиссертация на соискание ученой степеникандидата технических наукНаучный руководительдоктор физико-математических наукС. О.
КузнецовМосква, 20142ОглавлениеВведение ...................................................................................................... 71. Теоретические основы моделирования ....................................... 161.1Моделирование текстовых данных ........................................... 161.2Анализ формальных понятий и решетки замкнутых описаний181.2.1Частично упорядоченные множества и решетки ..............
191.2.2Анализ формальных понятий .............................................. 221.2.3Решетки замкнутых описаний ............................................. 241.2.4Проекции решеток замкнутых описаний ........................... 241.3Прикладные онтологии ............................................................... 251.4Модели представления текста .................................................... 261.4.1Мешок слов ........................................................................... 261.4.2Деревья синтаксического разбора ...................................... 271.4.2.1Деревья составляющих .................................................
281.4.2.2Деревья зависимостей ................................................... 301.4.3Представление семантических отношений междупредложениями текста ....................................................................... 301.4.3.1Теория риторических структур .................................... 311.4.3.2Теория речевых актов ................................................... 361.4.3.3Теория K-представлений .............................................. 371.4.3.4Семантическая организация данных ...........................
391.4.3.5Теория представления дискурса .................................. 391.4.4Чаща разбора ......................................................................... 401.4.5Семантико-коммуникативное представление текста ....... 411.5Ядра в задаче машинного обучения .......................................... 4231.5.1Применение функции ядра в задачах машинного обучения431.5.2Некоторые виды ядер ........................................................... 441.5.2.1Ядра для строк ...............................................................
441.5.2.2Ядро на синтаксических деревьях ............................... 461.5.2.3Неглубокое семантическое ядро .................................. 471.5.2.4Ядро частичных поддеревьев ....................................... 482. Модели и методы поиска ответов на сложные запросы .......... 502.1Введение ....................................................................................... 502.2Обобщенная модель представления текстовых абзацев .........
512.3Применение чащ разбора для нахождения ответов на вопросы522.3.1Расширенные группы ........................................................... 532.3.2Различные подходы к выявлению сходства междутекстовыми абзацами ......................................................................... 552.3.3Несинтаксические связи, получаемые из семантическихтеорий 582.3.3.1Пример использования риторической структуры ...... 582.3.3.2Обобщение расширенных групп, использующихкоммуникативные действия ........................................................... 592.3.3.3Пример использования коммуникативных действий 602.4Вычисление обобщения чащ разбора ........................................
622.5Алгоритм вычисления приближенного обобщения чащразбора .................................................................................................... 642.5.1Проекции на чащах...............................................................
642.5.2Построение множества расширенных групп ..................... 652.5.3Обобщение чащ на проекциях ............................................ 6642.6Эксперименты по поиску с использованием сходства междуабзацами .................................................................................................. 672.6.1Схема эксперимента ............................................................. 672.6.2Результаты экспериментов .................................................. 682.7Оценка вычислительной сложности.......................................... 692.8Кластеризация результатов поиска ........................................... 712.8.1Решетка замкнутых описаний на чащах ............................
712.8.2Алгоритм кластеризации ..................................................... 732.8.2.1Кластеризация с использованием полного описания 732.8.2.2Кластеризация с использованием проекций ............... 732.8.32.9Пример кластеризации на проекциях ................................. 74Выводы ......................................................................................... 763. Применение ядер для классификации коротких текстов........ 793.1Введение ....................................................................................... 793.2Пример расширения деревьев разбора ...................................... 813.3Алгоритм построения расширенных деревьев ......................... 853.4Оценка улучшения качества классификации ...........................
873.5Оценка вычислительной сложности.......................................... 883.6Эксперименты .............................................................................. 893.7Выводы ......................................................................................... 944. Поиск тождественных денотатов в онтологиях и формальныхконтекстах ................................................................................................ 974.1Введение .......................................................................................
974.2Алгоритм поиска тождественных денотатов ........................... 994.2.1Преобразование онтологии в формальный контекст ...... 1004.2.2Построение множества формальных понятий................. 1034.2.3Критерии фильтрации формальных понятий .................. 1044.2.4Формирование списков тождественных объектов .......... 10654.3Альтернативные методы ........................................................... 1094.3.1Метод на основе экстенсиональной устойчивости понятия1094.3.2Метод на основе меры абсолютного сходства ................
1104.3.3Метод на основе расстояния Хэмминга ........................... 1114.4Экспериментальные исследования .......................................... 1114.4.14.4.1.1Схема эксперимента .................................................... 1114.4.1.2Результаты .................................................................... 1144.4.24.5Эксперименты на формальных контекстах .....................
111Эксперименты на прикладной онтологии........................ 1194.4.2.1Описание прикладной онтологии .............................. 1194.4.2.2Анализ результатов ..................................................... 120Выводы .......................................................................................
1225. Программные комплексы обработки текстовых данных наоснове решеток замкнутых описаний ............................................... 1245.1Программный комплекс FCART.............................................. 1245.1.1Введение ..............................................................................
1245.1.2Базовые понятия ................................................................. 1255.1.2.1Аналитические артефакты .......................................... 1255.1.2.2Решатели ....................................................................... 1265.1.2.3Визуализаторы ............................................................. 1265.1.2.4Отчёты .......................................................................... 1285.1.3Программная архитектура комплекса ..............................
1295.1.4Цикл работы на примере решеток замкнутых описаний 1315.1.5Использование плагинов и макросов ............................... 1345.1.6Основные возможности программного комплекса поработе с решетками замкнутых описаний ..................................... 13565.2Программный комплекс, предназначенный для обработки чащразбора .................................................................................................. 1375.2.1Архитектура комплекса ..................................................... 1375.2.2Модуль обработки чащ разбора ........................................
1385.2.3Ранжирование поисковых результатов ............................ 1395.2.4Обучение на абзацах .......................................................... 1395.2.5Модуль кластеризации с помощью решеток замкнутыхописаний ............................................................................................ 1395.2.6Риторический парсер.......................................................... 1395.2.7Модуль для выявления и обработки коммуникативныхдействий ............................................................................................
1405.2.8Модуль для построения кореферентных связей ............. 140Заключение ............................................................................................. 144Литература ............................................................................................. 147Приложения............................................................................................ 159Приложение 1 .......................................................................................