diss005-ilvovsky_AvtoRef (1137205), страница 3

Файл №1137205 diss005-ilvovsky_AvtoRef (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 3 страницаdiss005-ilvovsky_AvtoRef (1137205) страница 32019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Если рассматривать абзацы как объекты, а чащи разбора как ихописания, то операция обобщения или сходства – это полурешеточная операцияпересечения.Используянесинтаксическиесвязи,авторрасширяетпонятиесинтаксической группы на случай нескольких предложений. Дискурсивные13связи между вершинами деревьев разбора позволяют объединять несколькогрупп из разных предложений или из одного предложения между собой. Такиесвязи при обходе группы условно позволяют «перескакивать» с одного дереваразбора на другое.

В работе рассматриваются следующие типы групп: Синтаксические, или регулярные группы; Группы, включающие кореферентные и таксономические связи. Онитакже называются чащевыми группами. Риторические группы (RST). Две группы (каждая из них может быть ичащевой, и синтаксической), соединенные риторическим отношением. Коммуникативные группы (CA).Дляудобствавсеобъединенныенесинтаксическимисвязямисинтаксические группы (чащевые, RST, CA) называются расширеннымигруппами.Выполнение операции обобщения на полных описаниях является NPтрудной задачей, поэтому для эффективного вычисления с сохранениемсвойств операции можно воспользоваться механизмом проекций. Определениепроекции допускает существование большого числа способов её задания. Авторопределяет проекцию чащи как множество всех максимальных по вложениюсинтаксических и расширенных групп, вычисленных для данного абзаца.

Соструктурной точки зрения, такая проекция – это максимальные по вложениюподдеревья графа с дополнительными свойствами. В работе приводитсяалгоритм формирования всех расширенных групп для текстового абзаца.Работа с проекциями позволяет добиться экономии по сложности(переход к работе с деревьями) без значимого ущерба для качества результата(группы учитывают все необходимые лингвистические связи внутри абзаца).В работе формулируется алгоритм вычисления сходства для двух абзацевс использованием проекций:141. Выполнить их фрагментацию и извлечь все синтаксические группы изкаждого предложения.2.

Найти дискурсивные связи внутри абзаца.3. Используя семантические связи, построить на основе синтаксических группрасширенные группы.4. Провести обобщение для каждого из четырех типов групп, заключающееся впоиске множества наибольших общих подгрупп для каждой пары групподного и того же типа.Построенная модель применяется для решения задачи информационногопоиска.

Использование абзацев текста в качестве запросов применяется,например,воснованныхнапоискерекомендательныхсистемах.Рекомендательные агенты отслеживают действия пользователей чатов, блогов ифорумов, комментарии пользователей на торговых сайтах и предлагаютнаиболее релевантные веб-документы и их фрагменты, относящиеся крешениям о покупке товара.В экспериментах сначала вычисляется сходство между вопросом ипотенциальными ответами, затем ответы ранжируются по вычисляемому набазе сходства числовому значению. В случае использования полного описаниязначение вычисляется как размер максимального общего подграфа. Дляпроекций сначала вычисляется максимальный размер (количество вершин)среди наибольших общих подгрупп для каждого типа групп, а затем этизначения суммируются.

На различных наборах данных новый подходсравнивается с несколькими альтернативными методами: Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляется набор общихключевых слов / N-грамм и их частот.15 Попарноесравнениепредложений:применяютсясинтаксическиеобобщения для каждой пары предложений, полученные результатысуммируются.Релевантность поиска сиспользованием обобщенийдля отдельныхпредложений, %,Релевантность поиска спомощью чащ, построенныхна фрагментах, %,Релевантность поиска спомощью чащ, построенныхна оригинальных абзацах,%,Релевантность поиска сиспользованием обобщениячащ на графах, %1 составноепредложение2 предложения3 предложения4 предложения1 составноепредложение2 предложения3 предложения4 предложения62.369.172.472.973.361.559.960.464.870.566.2666871.972.068.572.672.873.469.274.771.671.466.774.260.662.358.765.866.165.973.170.972.576.970.873.973.572.971.71 составноепредложение2 предложения3 предложения4 предложения54.563.265.368.167.252.349.750.960.95758.362.161.762.063.763.064.663.961.962.758.1564.7568.7570.3369.25Тип запросаСложность запросаРелевантность исходногопоиска в Bing, %,Таблица 2.1.

Оценка релевантности поискаПоискрекомендацийпо товарамПоискрекомендацийпопутешествиямПоискрекомендацийконтента наFacebookСредниепоказателиТаблица демонстрирует, что с ростом сложности запроса увеличивалсяэффект от применения технологии обобщения. Метод с использованиемабзацев превосходит ключевые слова и предложения. Другим важнымрезультатом является незначительная потеря качества при существенномвыигрыше в скорости за счет использования проекций.Помимо собственно улучшения релевантности результатов поиска,существенным аспектом является их интерпретация ‒ одно из важнейших16направлений в промышленном информационном поиске.

В работе приводитсяописание применения модели для задачи иерархической концептуальнойкластеризациитекстов,однимизчастныхслучаевкоторойявляетсяпредставление результатов поиска в виде решетки замкнутых множеств(кластеров), а не в виде линейного списка. Структурным описанием каждоготекста является чаща разбора или её проекция. Решеточная операцияпересечения – это операция сходства чащ разбора.Кластеризация в случае использования полного описания выглядитследующим образом:1.

Взять множество текстов (поисковую выдачу) T.2. Для каждого результата ti T построить чащу разбора pi  P .3. Используя операцию обобщения чащ разбора в качестве решеточнойоперации пересечения  , построить узорную решеткуT , P, ,  для всехтекстов с помощью любого стандартного алгоритма (например, AddIntentили Замыкай-По-Одному).4. Получить иерархические кластеры – узорные понятия решетки.При использовании приближенного представления алгоритм немногомодифицируется:1.

Взять множество текстов (поисковую выдачу) T.2. Для каждого результата  pi    P ti Tпостроить проекцию чащи разбора.3. Используя операцию обобщения проекций в качестве решеточной операциипересечения, построить проекцию узорной решеткиT , P , ,  4. Для всех текстов с помощью любого стандартного алгоритма (например,AddIntent или Замыкай-По-Одному).5.

Получить иерархические кластеры – проекции узорных понятий решетки.17В третьей главе описывается применение построенной модели длязадачи обучения с учителем на текстовых абзацах (для английского языка),основанное на использовании ядерных функций (kernels) в методе опорныхвекторов (SVM). Производится сравнение с существующими моделями(Moschitti, «мешок слов»), не использующими дискурсивную информацию освязяхмеждупредложениямиабзаца.Демонстрируетсяпреимуществоприменения новой модели в задаче классификации поисковых результатов и взадаче классификации технических документов.Функция ядра (convolution kernel) на деревьях задает пространствопризнаков, состоящее из возможных типов поддеревьев деревьев разбора, иподсчитывает количество общих подструктур в качестве синтаксическойблизости между деревьями.

В исследовании применяется подход к построениюядра, базирующегося более чем на одном дереве разбора: ядра для лесадеревьев. Сравниваются два подхода:1. Существующий подход. Обучение на лесе, сформированном из деревьевразбора для всех предложений абзаца (Moschitti);2. Модифицированный подход. Обучение на лесе, сформированном изобычных деревьев разбора, дополненных расширенными деревьями. Каждоерасширенное дерево включает в себя одну дискурсивную связь («перескок»между деревьями). Такой лес представляет собой альтернативный вариантзадания проекции чащи разбора.Автор формулирует алгоритм построения расширенных деревьев дляабзаца.Итоговыесинтаксическогодеревьяразбора,неоднакоявляютсяформируюткорректнымиадекватноедеревьямипространствопризнаков для ядер на деревьях. В исследовании приводятся результатыэкспериментов, демонстрирующие выигрыш при использовании множестварасширенных деревьев в задаче поиска с помощью классификации и в задачеклассификации технических документов.18Задача поиска с помощью классификации представляет собой разбиениемножествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные.

Соответствующая обучающая выборка формируется какмножество ответов с высоким рейтингом (положительные примеры) имножество ответов с низким рейтингом (отрицательные примеры). Тестоваявыборка формируется из оставшегося множества путем случайного выбора.Для каждого результата используется его «сниппет» (выдаваемый поисковойсистемой фрагмент), а также соответствующий ему фрагмент текста,извлеченный со страницы (два независимых эксперимента). Этот экспериментбазируется на предположении, что верхние (нижние) результаты, выдаваемыеBing, так или иначе релевантны (нерелевантны) исходному запросу, несмотряна то что они могут быть неверно упорядочены.Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.

Характеристики

Тип файла

PDF-файл

Размер

655,82 Kb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.