Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИФедеральное государственное автономное образовательноеучреждение высшего профессионального образованияНАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»На правах рукописиИЛЬВОВСКИЙДмитрий АлексеевичМЕТОДЫ И АЛГОРИТМЫ ОБРАБОТКИТЕКСТОВЫХ ДАННЫХ НА ОСНОВЕ ГРАФОВЫХДИСКУРСИВНЫХ МОДЕЛЕЙСпециальность 05.13.18Математическое моделирование, численные методыи комплексы программДиссертация на соискание ученой степеникандидата технических наукНаучный руководительдоктор физико-математических наукС.О.
КузнецовМосква, 20172ОглавлениеВведение ...................................................................................................... 71. Теоретические основы моделирования ....................................... 161.1Моделирование текстовых данных ........................................... 161.2Анализ формальных понятий и решетки замкнутых описаний181.2.1Частично упорядоченные множества и решетки ..............
191.2.2Анализ формальных понятий .............................................. 221.2.3Решетки замкнутых описаний ............................................. 241.2.4Проекции решеток замкнутых описаний ...........................
241.3Прикладные онтологии ............................................................... 251.4Модели представления текста .................................................... 261.4.1Мешок слов ........................................................................... 261.4.2Деревья синтаксического разбора ...................................... 271.4.2.1Деревья составляющих .................................................
281.4.2.2Деревья зависимостей ................................................... 301.4.3Представление дискурсивных отношений междупредложениями текста ....................................................................... 311.4.3.1Дискурсивные теории и их применение в прикладныхзадачах311.4.3.2Теория риторических структур .................................... 321.4.3.3Теория речевых актов ................................................... 371.4.3.4Семантическая организация данных ........................... 381.4.3.5Теория представления дискурса ..................................
391.4.4Чаща разбора ......................................................................... 391.4.5Теория «Смысл ⇔ Текст» ................................................... 4031.5Ядра в задаче машинного обучения .......................................... 421.5.1Применение ядерных функций в задачах машинногообучения .............................................................................................. 431.5.2Некоторые виды ядер ........................................................... 441.5.2.1Ядра для строк ...............................................................
441.5.2.2Ядро на синтаксических деревьях ............................... 461.5.2.3Неглубокое семантическое ядро .................................. 471.5.2.4Ядро частичных поддеревьев ....................................... 482. Модели и методы поиска ответов на сложные запросы .......... 502.1Введение ....................................................................................... 502.2Обобщенная модель текстового абзаца .................................... 512.3Применение чащ разбора для нахождения ответов на вопросы532.3.1Расширенные группы ........................................................... 532.3.2Различные подходы к выявлению сходства междутекстовыми абзацами ......................................................................... 552.3.3Несинтаксические связи, получаемые из дискурсивныхтеорий 582.3.3.1Пример использования риторической структуры ......
592.3.3.2Обобщение расширенных групп, использующихкоммуникативные действия ........................................................... 602.3.3.3Пример использования коммуникативных действий 612.4Вычисление обобщения чащ разбора ........................................ 632.5Алгоритм вычисления приближенного обобщения чащразбора .................................................................................................... 642.5.1Проекции на чащах............................................................... 642.5.2Построение множества расширенных групп ..................... 662.5.3Обобщение чащ на проекциях ............................................ 6742.6Эксперименты по поиску с использованием сходства междуабзацами ..................................................................................................
672.6.1Схема эксперимента ............................................................. 672.6.2Результаты экспериментов .................................................. 692.7Оценка вычислительной сложности.......................................... 702.8Кластеризация результатов поиска ........................................... 712.8.1Решетка замкнутых описаний на чащах ............................ 712.8.2Алгоритм кластеризации ..................................................... 742.8.2.1Кластеризация с использованием полного описания 742.8.2.2Кластеризация с использованием проекций ...............
742.8.32.9Пример кластеризации с использованием проекций ........ 75Выводы ......................................................................................... 773. Применение ядер для классификации коротких текстов........ 793.1Введение ....................................................................................... 793.2Пример расширения деревьев разбора ......................................
813.3Алгоритм построения расширенных деревьев ......................... 853.4Оценка вычислительной сложности.......................................... 873.5Эксперименты .............................................................................. 883.5.1Поиск с помощью классификации ...................................... 883.5.2Классификация технических документов .......................... 943.6Выводы .........................................................................................
964. Поиск тождественных денотатов в онтологиях и формальныхконтекстах ................................................................................................ 994.1Введение ....................................................................................... 994.2Алгоритм поиска тождественных денотатов ......................... 1014.2.1Преобразование онтологии в формальный контекст ...... 1034.2.2Построение множества формальных понятий................. 1054.2.3Критерии фильтрации формальных понятий ..................
10654.2.44.3Формирование списков тождественных объектов .......... 109Альтернативные методы ........................................................... 1114.3.1Метод на основе экстенсиональной устойчивости понятия1114.3.2Метод на основе меры абсолютного сходства ................ 1124.3.3Метод на основе расстояния Хэмминга ........................... 1134.4Экспериментальные исследования .......................................... 1144.4.14.4.1.1Схема эксперимента ....................................................
1144.4.1.2Результаты .................................................................... 1174.4.24.5Эксперименты на формальных контекстах ..................... 114Эксперименты на прикладной онтологии........................ 1224.4.2.1Описание прикладной онтологии .............................. 1224.4.2.2Анализ результатов ..................................................... 123Выводы .......................................................................................
1255. Программные комплексы обработки текстовых данных наоснове решеток замкнутых описаний ............................................... 1275.1Программный комплекс FCART.............................................. 1275.1.1Введение .............................................................................. 1275.1.2Базовые понятия ................................................................. 1285.1.2.1Аналитические артефакты .......................................... 1285.1.2.2Решатели ....................................................................... 1295.1.2.3Визуализаторы ............................................................. 1295.1.2.4Отчёты ..........................................................................