Автореферат (1137240), страница 2
Текст из файла (страница 2)
Ежегодном весеннем симпозиуме ассоциации искусственного интеллекта(2014 AAAI Spring Simposium).98. 14-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2014, Катманду, Непал.9. 52-й международной конференции Ассоциации компьютерной лингвистикиACL-2014, Балтимор, США.Публикация результатов. Основные результаты работы изложены в 12научныхстатьях.9статейопубликованыврецензируемыхтрудахмеждународных конференций, 3 статьи опубликованы в журналах из спискаВАК.Структура диссертации. Диссертация изложена на 160 страницах ивключает в себя введение, 5 глав, заключение и список литературы, состоящийиз 110 пунктов.Содержание работыВовведениираскрываетсяактуальностьтемыдиссертации,формулируются проблемы исследования, предмет исследования, определяетсяцель работы, описываются методы исследования, излагаются основныенаучные результаты, обосновывается теоретическая и практическая значимостьработы, даётся общая характеристика исследования.В первой главе рассматриваются теоретические основы используемых вдальнейшем моделей и методов и описываются особенности моделированиятекстовых данных.
Приводятся основные определения, связанные с частичноупорядоченными множествами и решетками, анализом формальных понятий(АФП), решетками замкнутых описаний, синтаксическими и семантическимимоделями представления текста. Также рассматриваются некоторые подходы кструктурному обучению на текстовых данных. Вводится модель структурногопредставления текстовых абзацев – чаща разбора.Решетка–частичныйпорядок(антисимметричноетранзитивноерефлексивное бинарное отношение), для любых двух элементов которого10существуют инфимум и супремум. Решетки замкнутых описаний, называемыетакже узорными структурами (pattern structures) предназначены для работы сосложными данными.
Узорная структура – это тройка G, D,множество объектов, D, , , гдеG –– полная полурешетка всевозможных описаний, а :G D – функция, которая сопоставляет каждому объекту из множества Gего описание из D . Операцияпозволяет вычислить сходство между двумяописаниями. Проекция узорной структуры – это функция : D D , котораяявляетсямонотоннойидемпотентнойx y x y ,сжимающей x xи x x .
Для получения проекции узорной структурымы должны спроецировать функцию – описание объектов, а также полурешеткуописаний: G, D, , G, D , , , гдеD D d D | d D : d d и x, y D, xy x y .Теория решеток замкнутых описаний находит своё применение внескольких областях, в частности, она может быть использована для обработкитекста на естественном языке.
Автор приводит несколько основных способовпредставления текстовых данных, применяемых для этой обработки.Модель «мешка слов» («bag-of-words») дает упрощенное представлениетекста, применяемое, в частности, в задаче информационного поиска. В этоймоделитекстпредставляетсякакнеупорядоченныйнаборслов(илисловосочетаний) без учета грамматики и порядка слов.Дерево синтаксического разбора (syntactic parse tree) – это упорядоченноедерево, которое отражает синтаксическую структуру предложения или строкисогласно некоторой формальной грамматике. Выделяют два основных класса:деревья составляющих (constituency tree) и деревья зависимостей (dependency11tree). Деревья синтаксического разбора используются и для компьютерныхязыков, и для обработки текстов на естественных языках.Еслирассматриватьболееобъемныетексты,например,абзацы,состоящие из нескольких предложений, то использования синтаксическойинформации недостаточно.
В этом случае источником структурных связеймогут служить семантические теории, учитывающие смысловые отношениямежду фрагментами текста. В работе используется несколько типов такихсвязей, описание которых приводит автор: кореферентные связи (coreference),таксономические отношения («та же сущность», гипоним, гипероним и т.д.),риторические отношения (часть теории риторических структур), связи междукоммуникативными действиями (часть теория речевых актов). Такжеприводится краткое описание нескольких теорий, позволяющих устанавливатьсвязи между предложениями, но не включенных в модель: теории Kпредставлений, теорией семантических баз данных и т.д.Используя семантические теории, позволяющие установить связи внутритекста, состоящего из нескольких предложений, можно обобщить понятиедерева синтаксического разбора на случай текстового абзаца.Определение1.1.Чащейразборатекстовогоабзацаназываетсясовокупность множества деревьев разбора предложений абзаца и связейнескольких типов, устанавливаемых между вершинами деревьев.
Каждая связь– это упорядоченная пара вершин деревьев разбора.Со структурной точки зрения чаща представляет собой ориентированныйграф, который включает в себя деревья разбора, а также дуги, соответствующиенесинтаксическим связям.Альтернативным представлением короткого текста могут служитьвведенныеИ.Мельчукомсемантико-коммуникативныеструктуры.Ониописывают текст с помощью 8 логически независимых пар категорий иобобщают многие известные семантические теории. Это представление12является более универсальным (и применимым к русскому языку), однако длянего отсутствует программная реализация и законченное математическоеописание.В исследовании также используются так называемые ядерные функции,применяемые в задаче классификации коротких текстов. Ядерные функцииприменяются в сочетании с широким классом алгоритмов обучения,основанных на скалярном произведении в векторных пространствах.
Одним изметодов является Метод Опорных Векторов (Support Vector Machine).Применение ядер позволяет использовать данный метод для объектов,имеющих сложную структуру и очень большое число свойств, не прибегая кявному выделению этих признаков. Одним из таких объектов являются деревьяразбора, для которых также вводятся функции ядра.Во второй главе описывается графовая модель текстовых абзацев и еёприменение в задаче информационного поиска (для английского языка).Рассматриваются методы вычисления полного и приближенного структурногосходстватекстовыхабзацев,определяетсяпроекцияструктурногопредставления текстового абзаца в виде расширенных синтаксических групп.Проводится анализ полученных результатов, демонстрируется преимущество,достигаемое за счет вычисления сходства на абзацах, производится сравнениеметодов, основанных на полном и приближенном сходстве. Также в главеописываетсяприменениепостроенноймоделидляиерархическойкластеризации текстовых абзацев, источником которых может служить,например, поисковая выдача.В рамках расширения модели представления текста в виде чащи разбораавтором вводится операция обобщения абзацев текста.
Она определяется черезобобщение соответствующих им чащ разбора. Применяемая в работе идеясостоит в расширении понятия «наименее общего обобщения» (примеромможет служить антиунификация логических формул и т.д.) в направлении13структурного представления текстовых абзацев и последующем использованииэтой операции для вычисления сходства между состоящими из несколькихпредложений вопросами и возможными ответами на них.Используянесинтаксическиесвязи,авторрасширяетпонятиесинтаксической группы на случай нескольких предложений.
Несинтаксическиесвязи между вершинами деревьев разбора позволяют объединять несколькогрупп из разных предложений или из одного предложения между собой. Такиесвязи при обходе группы условно позволяют «перескакивать» с одного дереваразбора на другое. В работе рассматриваются следующие типы групп: Синтаксические или регулярные группы; Группы, включающие кореферентные и таксономические связи. Онитакже называются чащевыми группами. Риторические группы (RST).
Две группы (каждая из них может быть ичащевой, и синтаксической), соединенные риторическим отношением. Коммуникативные группы (CA). Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической),объединенныесвязьюмеждудвумякоммуникативными действиями.Дляудобствавсеобъединенныенесинтаксическимисвязямисинтаксические группы (чащевые, RST, CA) называются расширеннымигруппами.Если рассматривать абзацы как объекты, а чащи разбора как их описания,то операция обобщения или сходства – это полурешеточная операцияпересечения.
Если представить чащу в виде графа, то пересечение двух чащнаиболее естественным образом определяется как множество наибольшихобщих подграфов для соответствующих им графов. Выполнение данной14операции является NP-трудной задачей, поэтому для эффективного вычисленияс сохранением свойств операции можно воспользоваться механизмом проекций.В работе применяются два способа вычисления обобщения: с использованиемполного описания и с использованием проекций.Определение проекции допускает существование большого числаспособов её задания.
Автор определяет проекцию чащи как множество всехмаксимальныхповложениюсинтаксическихирасширенныхгрупп,вычисленных для данного абзаца. Со структурной точки зрения такая проекция– это максимальные по вложению поддеревья графа с дополнительнымисвойствами. В работе приводится алгоритм формирования всех расширенныхгрупп для текстового абзаца.Пересечение на проекциях заключается в попарном пересечении группдля каждого типа из двух множеств и выборе наибольших по вложениюподгрупп. Операция пересечения двух групп определяется внутри каждого типагрупп.
Работа с проекциями позволяет добиться экономии по сложности(переход к работе с деревьями) без значимого ущерба для качества результата(группы учитывают все необходимые лингвистические связи внутри абзаца).В работе формулируется алгоритм вычисления сходства для двух абзацевс использованием проекций:1. Выполнить их фрагментацию и извлечь все синтаксические группы изкаждого предложения.2. Найти семантические связи внутри абзаца.3. Используя семантические связи, построить на основе синтаксических группрасширенные группы.4. Провести обобщение для каждого из четырех типов групп, заключающееся впоиске множества наибольших общих подгрупп для каждой пары групподного и того же типа.15Построенная модель применяется для решения задачи информационногопоиска. Использование абзацев текста в качестве запросов применяется,например,воснованныхнапоискерекомендательныхсистемах.Рекомендательные агенты отслеживают действия пользователей чатов, блогов ифорумов, комментарии пользователей на торговых сайтах и предлагают вебдокументы и их фрагменты, относящиеся к решениям о покупке товара.