diss005-ilvovsky_AvtoRef (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей), страница 2
Описание файла
Файл "diss005-ilvovsky_AvtoRef" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Эксперименты продемонстрировалиулучшение по сравнению с существующими аналогами. Разработанныеалгоритмы и методы были успешно внедрены в реальных проектах, а такжеиспользованы в преподавательской деятельности Департамента анализа данныхи искусственного интеллекта Факультета компьютерных наук НИУ ВШЭ.Компания ООО «ФОРС-Центр разработки» применила метод классификациитекстовых абзацев в проекте оценки пользовательских предпочтений. КомпанияАвикомпвнедриламетодвыявлениятождественныхденотатовдляоптимизации прикладной онтологии.
Все разработанные методы былиреализованы в виде программного комплекса, предназначенного для решенияисследовательских и прикладных задач.Достоверность полученных результатов подтверждена строгостьюпостроенныхрезультатовматематическихчисленныхпрограммных реализаций.моделей,расчетовиэкспериментальнойпрактическойпроверкойэффективностью8Апробациярезультатовработы.Основныерезультатыработыобсуждались и докладывались на следующих научных конференциях исеминарах:1.
9-ймеждународнойконференции«Интеллектуализацияобработкиинформации» (ИОИ-2012), Будва, Черногория.2. 1-м семинаре по анализу формальных понятий и информационному поиску(FCAIR-2013)врамках35-йевропейскойконференциипоинформационному поиску (ECIR-2013), Москва, Россия.3. 11-й международной конференции по анализу формальных понятий(ICFCA-2013), Дрезден, Германия.4. 8-й международной конференции по компьютерной лингвистике ДИАЛОГ2013, Москва, Россия.5. 3-м семинаре по представлению знаний в виде графов (GKR-2013) в рамках23-й объединенной международной конференции по искусственномуинтеллекту (IJCAI-2013), Пекин, Китай.6. 7-й международной конференции по компьютерной лингвистике RANLP2013, Хисаря, Болгария.7. 8-й международной конференции по компьютерной лингвистике RANLP2015, Хисаря, Болгария.8.
16-й международной конференции по интеллектуальному анализу данныхAIMSA-2014, Варна, Болгария.9. 14-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2014, Катманду, Непал.10. 15-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2015, Каир, Египет.911.
52-й международной конференции Ассоциации компьютерной лингвистикиACL-2014, Балтимор, США.12. 53-й международной конференции Ассоциации компьютерной лингвистикиACL-2015, Пекин, Китай.Публикация результатов. Основные результаты работы изложены в 15научныхстатьях.12статейопубликованыврецензируемыхтрудахмеждународных конференций, 3 статьи опубликованы в журналах из спискаВАК.Структура диссертации. Диссертация состоит из введения, пяти глав,заключения, списка использованной литературы и приложений.
Общий объемдиссертации – 250 с. машинописного текста (с приложениями). Основная частьработы изложена на 164 с. и содержит 16 рисунков и 11 таблиц. Библиографиявключает в себя 139 наименований.Содержание работыВовведениираскрываетсяактуальностьтемыдиссертации,формулируются проблемы исследования, предмет исследования, определяетсяцель работы, описываются методы исследования, излагаются основныенаучные результаты, обосновывается теоретическая и практическая значимостьработы, даётся общая характеристика исследования.В первой главе рассматриваются теоретические основы используемых вдальнейшем моделей и методов и описываются особенности моделированиятекстовых данных. Приводятся основные определения, связанные с частичноупорядоченными множествами и решетками, анализом формальных понятий(АФП), решетками замкнутых описаний, синтаксическими и дискурсивнымимоделями представления текста.
Также рассматриваются некоторые подходы кструктурному обучению на текстовых данных. Вводится модель структурногопредставления текстовых абзацев – чаща разбора.10Решетка–частичныйпорядок(антисимметричноетранзитивноерефлексивное бинарное отношение), для любых двух элементов которогосуществуют инфимум и супремум. Решетки замкнутых описаний, называемыетакже узорными структурами (pattern structures) предназначены для работы сосложными данными. Узорная структура – это тройка G, D,множество объектов, D, , , гдеG –– полная полурешетка всевозможных описаний, а :G D – функция, которая сопоставляет каждому объекту из множества Gего описание из D .
Операцияпозволяет вычислить сходство между двумяописаниями. Проекция узорной структуры – это функция : D D , котораяявляетсямонотоннойx y x y ,сжимающей x xиидемпотентной x x . Для получения проекции узорной структурымы должны спроецировать функцию – описание объектов, а также полурешеткуописаний: G, D, , G, D , , , гдеD D d D | d D : d d и x, y D, xy x y .Теория решеток замкнутых описаний находит своё применение внескольких областях, в частности, она может быть использована для обработкитекста на естественном языке.
Автор приводит несколько основных способовпредставления текстовых данных, применяемых для этой обработки.Модель «мешка слов» («bag-of-words») дает упрощенное представлениетекста, применяемое, в частности, в задаче информационного поиска. В этоймоделитекстпредставляетсякакнеупорядоченныйнаборслов(илисловосочетаний) без учета грамматики и порядка слов.Дерево синтаксического разбора (syntactic parse tree) – это упорядоченноедерево, которое отражает синтаксическую структуру предложения или строкисогласно некоторой формальной грамматике. Выделяют два основных класса:11деревья составляющих (constituency tree) и деревья зависимостей (dependencytree). Деревья синтаксического разбора используются и для компьютерныхязыков, и для обработки текстов на естественных языках.Еслирассматриватьболееобъемныетексты,например,абзацы,состоящие из нескольких предложений, то использования синтаксическойинформации недостаточно.
В этом случае источником структурных связеймогут служить дискурсивные теории, учитывающие смысловые отношениямежду фрагментами текста. В работе используется несколько типов такихсвязей, описание которых приводит автор: кореферентные связи (coreference),таксономические отношения («та же сущность», гипоним, гипероним и т.д.),риторические отношения (теория риторических структур), связи междукоммуникативными действиями (теория речевых актов). Также приводитсякраткое описание нескольких теорий, позволяющих устанавливать связи междупредложениями, но не включенных в модель: теории семантическойорганизации данных, теории представления дискурса и т.д.Используя дискурсивные теории, позволяющие установить связи внутритекста, состоящего из нескольких предложений, можно обобщить понятиедерева синтаксического разбора на случай текстового абзаца.Определение1.1.Чащейразборатекстовогоабзацаназываетсямножество деревьев разбора предложений абзаца и связи нескольких типов,устанавливаемых между вершинами этих деревьев.
Каждая связь – этоупорядоченная пара вершин деревьев разбора.Со структурной точки зрения, чаща представляет собой ориентированныйграф, который включает в себя деревья разбора, а также дуги, соответствующиенесинтаксическим связям.В исследовании также используются так называемые ядерные функции,применяемые в задаче классификации коротких текстов в сочетании с широкимклассом линейных классификаторов, использующих скалярное произведение в12векторных пространствах. Одним из таких методов является Метод ОпорныхВекторов (Support Vector Machine).
Применение ядер позволяет использоватьданный метод для объектов, имеющих сложную структуру и очень большоечисло свойств, не прибегая к явному выделению этих признаков. В частности,он применим к деревьям синтаксического разбора, для которых также вводятсяфункции ядра.Во второй главе описывается графовая модель текстовых абзацев и еёприменение в задаче информационного поиска (для английского языка).Рассматриваются методы вычисления полного и приближенного структурногосходстватекстовыхабзацев,определяетсяпроекцияструктурногопредставления текстового абзаца в виде расширенных синтаксических групп.Проводится анализ полученных результатов, демонстрируется преимущество,достигаемое за счет вычисления сходства на абзацах, производится сравнениеметодов, основанных на полном и приближенном сходстве. Также в главеописываетсяприменениепостроенноймоделидляиерархическойкластеризации текстовых абзацев, источником которых может служить,например, поисковая выдача.В рамках расширения модели «чащи разбора» автором вводитсяассоциативная и коммутативная операция обобщения (или сходства) текстов.Если представить текстовые абзацы 1 и 2 в виде ориентированных графов(«чащ разбора») 1 и 2 , то операция обобщения этих абзацев 1 ⊓ 2 наиболееестественным образом определяется как { } - множество всех максимальныхпо вложению (с учетом меток на вершинах и ребрах) общих подграфов графовиз 1 и 2 .