diss005-ilvovsky_AvtoRef (1137205), страница 3
Текст из файла (страница 3)
Если рассматривать абзацы как объекты, а чащи разбора как ихописания, то операция обобщения или сходства – это полурешеточная операцияпересечения.Используянесинтаксическиесвязи,авторрасширяетпонятиесинтаксической группы на случай нескольких предложений. Дискурсивные13связи между вершинами деревьев разбора позволяют объединять несколькогрупп из разных предложений или из одного предложения между собой. Такиесвязи при обходе группы условно позволяют «перескакивать» с одного дереваразбора на другое.
В работе рассматриваются следующие типы групп: Синтаксические, или регулярные группы; Группы, включающие кореферентные и таксономические связи. Онитакже называются чащевыми группами. Риторические группы (RST). Две группы (каждая из них может быть ичащевой, и синтаксической), соединенные риторическим отношением. Коммуникативные группы (CA).Дляудобствавсеобъединенныенесинтаксическимисвязямисинтаксические группы (чащевые, RST, CA) называются расширеннымигруппами.Выполнение операции обобщения на полных описаниях является NPтрудной задачей, поэтому для эффективного вычисления с сохранениемсвойств операции можно воспользоваться механизмом проекций. Определениепроекции допускает существование большого числа способов её задания. Авторопределяет проекцию чащи как множество всех максимальных по вложениюсинтаксических и расширенных групп, вычисленных для данного абзаца.
Соструктурной точки зрения, такая проекция – это максимальные по вложениюподдеревья графа с дополнительными свойствами. В работе приводитсяалгоритм формирования всех расширенных групп для текстового абзаца.Работа с проекциями позволяет добиться экономии по сложности(переход к работе с деревьями) без значимого ущерба для качества результата(группы учитывают все необходимые лингвистические связи внутри абзаца).В работе формулируется алгоритм вычисления сходства для двух абзацевс использованием проекций:141. Выполнить их фрагментацию и извлечь все синтаксические группы изкаждого предложения.2.
Найти дискурсивные связи внутри абзаца.3. Используя семантические связи, построить на основе синтаксических группрасширенные группы.4. Провести обобщение для каждого из четырех типов групп, заключающееся впоиске множества наибольших общих подгрупп для каждой пары групподного и того же типа.Построенная модель применяется для решения задачи информационногопоиска.
Использование абзацев текста в качестве запросов применяется,например,воснованныхнапоискерекомендательныхсистемах.Рекомендательные агенты отслеживают действия пользователей чатов, блогов ифорумов, комментарии пользователей на торговых сайтах и предлагаютнаиболее релевантные веб-документы и их фрагменты, относящиеся крешениям о покупке товара.В экспериментах сначала вычисляется сходство между вопросом ипотенциальными ответами, затем ответы ранжируются по вычисляемому набазе сходства числовому значению. В случае использования полного описаниязначение вычисляется как размер максимального общего подграфа. Дляпроекций сначала вычисляется максимальный размер (количество вершин)среди наибольших общих подгрупп для каждого типа групп, а затем этизначения суммируются.
На различных наборах данных новый подходсравнивается с несколькими альтернативными методами: Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляется набор общихключевых слов / N-грамм и их частот.15 Попарноесравнениепредложений:применяютсясинтаксическиеобобщения для каждой пары предложений, полученные результатысуммируются.Релевантность поиска сиспользованием обобщенийдля отдельныхпредложений, %,Релевантность поиска спомощью чащ, построенныхна фрагментах, %,Релевантность поиска спомощью чащ, построенныхна оригинальных абзацах,%,Релевантность поиска сиспользованием обобщениячащ на графах, %1 составноепредложение2 предложения3 предложения4 предложения1 составноепредложение2 предложения3 предложения4 предложения62.369.172.472.973.361.559.960.464.870.566.2666871.972.068.572.672.873.469.274.771.671.466.774.260.662.358.765.866.165.973.170.972.576.970.873.973.572.971.71 составноепредложение2 предложения3 предложения4 предложения54.563.265.368.167.252.349.750.960.95758.362.161.762.063.763.064.663.961.962.758.1564.7568.7570.3369.25Тип запросаСложность запросаРелевантность исходногопоиска в Bing, %,Таблица 2.1.
Оценка релевантности поискаПоискрекомендацийпо товарамПоискрекомендацийпопутешествиямПоискрекомендацийконтента наFacebookСредниепоказателиТаблица демонстрирует, что с ростом сложности запроса увеличивалсяэффект от применения технологии обобщения. Метод с использованиемабзацев превосходит ключевые слова и предложения. Другим важнымрезультатом является незначительная потеря качества при существенномвыигрыше в скорости за счет использования проекций.Помимо собственно улучшения релевантности результатов поиска,существенным аспектом является их интерпретация ‒ одно из важнейших16направлений в промышленном информационном поиске.
В работе приводитсяописание применения модели для задачи иерархической концептуальнойкластеризациитекстов,однимизчастныхслучаевкоторойявляетсяпредставление результатов поиска в виде решетки замкнутых множеств(кластеров), а не в виде линейного списка. Структурным описанием каждоготекста является чаща разбора или её проекция. Решеточная операцияпересечения – это операция сходства чащ разбора.Кластеризация в случае использования полного описания выглядитследующим образом:1.
Взять множество текстов (поисковую выдачу) T.2. Для каждого результата ti T построить чащу разбора pi P .3. Используя операцию обобщения чащ разбора в качестве решеточнойоперации пересечения , построить узорную решеткуT , P, , для всехтекстов с помощью любого стандартного алгоритма (например, AddIntentили Замыкай-По-Одному).4. Получить иерархические кластеры – узорные понятия решетки.При использовании приближенного представления алгоритм немногомодифицируется:1.
Взять множество текстов (поисковую выдачу) T.2. Для каждого результата pi P ti Tпостроить проекцию чащи разбора.3. Используя операцию обобщения проекций в качестве решеточной операциипересечения, построить проекцию узорной решеткиT , P , , 4. Для всех текстов с помощью любого стандартного алгоритма (например,AddIntent или Замыкай-По-Одному).5.
Получить иерархические кластеры – проекции узорных понятий решетки.17В третьей главе описывается применение построенной модели длязадачи обучения с учителем на текстовых абзацах (для английского языка),основанное на использовании ядерных функций (kernels) в методе опорныхвекторов (SVM). Производится сравнение с существующими моделями(Moschitti, «мешок слов»), не использующими дискурсивную информацию освязяхмеждупредложениямиабзаца.Демонстрируетсяпреимуществоприменения новой модели в задаче классификации поисковых результатов и взадаче классификации технических документов.Функция ядра (convolution kernel) на деревьях задает пространствопризнаков, состоящее из возможных типов поддеревьев деревьев разбора, иподсчитывает количество общих подструктур в качестве синтаксическойблизости между деревьями.
В исследовании применяется подход к построениюядра, базирующегося более чем на одном дереве разбора: ядра для лесадеревьев. Сравниваются два подхода:1. Существующий подход. Обучение на лесе, сформированном из деревьевразбора для всех предложений абзаца (Moschitti);2. Модифицированный подход. Обучение на лесе, сформированном изобычных деревьев разбора, дополненных расширенными деревьями. Каждоерасширенное дерево включает в себя одну дискурсивную связь («перескок»между деревьями). Такой лес представляет собой альтернативный вариантзадания проекции чащи разбора.Автор формулирует алгоритм построения расширенных деревьев дляабзаца.Итоговыесинтаксическогодеревьяразбора,неоднакоявляютсяформируюткорректнымиадекватноедеревьямипространствопризнаков для ядер на деревьях. В исследовании приводятся результатыэкспериментов, демонстрирующие выигрыш при использовании множестварасширенных деревьев в задаче поиска с помощью классификации и в задачеклассификации технических документов.18Задача поиска с помощью классификации представляет собой разбиениемножествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные.
Соответствующая обучающая выборка формируется какмножество ответов с высоким рейтингом (положительные примеры) имножество ответов с низким рейтингом (отрицательные примеры). Тестоваявыборка формируется из оставшегося множества путем случайного выбора.Для каждого результата используется его «сниппет» (выдаваемый поисковойсистемой фрагмент), а также соответствующий ему фрагмент текста,извлеченный со страницы (два независимых эксперимента). Этот экспериментбазируется на предположении, что верхние (нижние) результаты, выдаваемыеBing, так или иначе релевантны (нерелевантны) исходному запросу, несмотряна то что они могут быть неверно упорядочены.Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.