Диссертация (1137218), страница 12

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 12 страницаДиссертация (1137218) страница 122019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 12)

Использование попарногосравнения предложений не всегда является хорошим вариантом,поскольку в таком случае мы попадаем в зависимость от того, какинформация(синтаксическиегруппы)распределенымеждупредложениями.Помимо ядер на отдельных деревьях был разработан и подход кпостроению ядра, базирующегося более чем на одном дереве разбора:ядрадлялесадеревьев.Однако,какправило,такиеядраиспользовались не для обработки кусков текста, состоящих изнескольких предложений, а для других задач. Одним из примененийлеса является задача компенсации ошибок синтаксического разбора[80]. В этом случае для каждого предложения строится лес из nлучших деревьев синтаксического разбора, что дает гораздо болеебогатый набор признаков по сравнению с одиночным деревом.

Этопреимущество позволяет ядру для леса не только быть болееустойчивым по отношению к ошибкам разбора, но и давать болеенадежные значения признаков, а также помогает решить проблемуразреженности данных, которая существует в традиционных ядерныхфункциях на деревьях.В работах [115, 116], освещавших задачу поиска ответов насложные вопросы, лес деревьев применялся для обучения на текстахиз нескольких предложений. Однако связи между предложениями в81этом случае не строились и не учитывались. Кроме того, обучениепроизводилось на ответах на все вопросы, а не только на данный (какописано в экспериментах ниже), что представляется не вполнеоправданным.В нашем исследовании [46] мы формируем лес деревьев длянескольких взаимосвязанных предложений, а не для одного. В поискеответов на вопросы, когда вопрос и ответ состоят из одногопредложения, классические методы (как раз и ориентированные наодиночные предложения) дают хорошие результаты. Однако прирешении задачи обучения на текстах, состоящих из несколькихпредложений,необходимыструктуры,взаимоотношениявнутриМыабзаца.описывающиедемонстрируем,чтовопределенных случаях использование дискурсивной информации дляобучения и рассмотрение абзацев и связей внутри абзаца даетпреимущество по сравнению со стандартными методами.3.2 Пример расширения деревьев разбораПрианализепредложенийкороткихнедостаточнотекстовдляпопарногосравненияполноценногообучениядискурсивным свойствам текста.

Этот факт связан с существованиемразличных способов распределения информации по несколькимпредложениям и различных дискурсивных структур, которыми можетбыть наделен текст и которые необходимо учитывать.Рассмотрим пример, в котором короткие фрагменты текстапринадлежат двум классам: Налоговые обязательства владельца, сдающего свой офисорганизации или бизнесмену. Налоговыеобязательствабизнесменаарендующей офис у владельца.илиорганизации,82I rent an office space.

This office is for my business. I can deduct office rentalexpense from my business profit to calculate net income.To run my business, I have to rent an office. The net business profit is calculated asfollows. Rental expense needs to be subtracted from revenue.To store goods for my retail business I rent some space. When I calculate the netincome, I take revenue and subtract business expenses such as office rent.I rent out a first floor unit of my house to a travel business.

I need to add the rentalincome to my profit. However, when I repair my house, I can deduct the repair expensefrom my rental income.I receive rental income from my office. I have to claim it as a profit in my tax forms. Ineed to add my rental income to my profits, but subtract rental expenses such as repairfrom it.I advertised my property as a business rental. Advertisement and repair expenses canbe subtracted from the rental income.

Remaining rental income needs to be added to myprofit and be reported as taxable profit.Во-первых, отметим, что анализ с помощью ключевых слов непомогает отделить первые три абзаца от последних трех. Все онисодержат ключевые слова rental/office/income/profit/add/subtract.Анализ, основанный на использовании синтаксических групп, вданном случае оказывается бесполезным по аналогичной причине.Попарноесравнениепредложенийтакженерешаетпоставленную проблему.Использование кореферентных связей между предложениями(разрешение анафоры) помогает, но лишь частично: все этипредложения содержат местоимение ‘I’ и отсылки к нему. В связи сэтим очевидно, что необходимо использование дополнительныхсвязей между предложениями. Источником таких связей могут83служить риторические структуры, уже использовавшиеся ранее.Структуры, описывающие фразы renting for yourself and deducting fromtotal income и renting to someone and adding to income, затрагиваютнесколько предложений.

Второе условие adding/subtracting incomesсвязано риторическим отношением elaboration с первым аргументомдля landlord/tenant. Это риторическое отношение может связыватьблоки, расположенные внутри предложения, в предложениях, идущихдруг за другом, и даже в предложениях, между которыми есть другиепредложения, например, блоки в 1 и 3 предложениях.Нарисункекореферентныесвязи3.1дляпоказаныдеревьяпредложенийзависимостейпервоготекста.иЕстьнесколько способов, с помощью которых можно соединить вершиныразных деревьев: мы выбрали риторическое отношение elaboration,которое помогает нам сформировать структуру rent-office-space – formy-business – deduct-rental-expense, являющуюся базой для нашейклассификации.

Мы использовали Stanford Core NLP, модуль дляработы с кореферентными связями [77], включающий средство длявизуализации, для того чтобы построить связи, изображенные нарисунках 3.1 и 3.2.84Рис.3.1. Кореферентные связи и множество деревьев зависимостей дляпервого текста.Рис. 3.2. Расширенное дерево, включающее фрагменты трех предложенийНа рисунке 3.2 изображено итоговое дерево с корнем ‘I’ изпервого предложения. Оно полностью включает в себя первое дерево,глагольную группу из второго предложения и глагольную группу изтретьего предложения в соответствии с риторическим отношениемelaboration.

Необходимо отметить, чтоинтуитивнойточкизренияэто расширенное дерево сможетрассматриватьсякак85представляющее «главную идею» текста в сравнении с остальнымитекстами в нашем множестве. Поскольку заранее неизвестно, какоеименно дерево окажется ключевым, необходимо сформировать всерасширенные деревья для текста и затем сопоставить их с деревьямиостальныхтекстов.расширенныеСдеревьяточкимогутзрениябытьобучениянаиспользованыдеревьях,совершенноаналогично обычным деревьям разбора.3.3 Алгоритм построения расширенных деревьевДлякаждойдуги,соединяющейдвадереваразбора,построенные для предложений, мы строим пару расширенныхдеревьев, делая новый переход по этой дуге (рисунок 3.3).P11P21P1iP2jP2j+1Рис.

3.3. Дуга, которая соединяет два дерева разбора для двух предложенийв тексте (верхняя часть), и полученное на её основе множество расширенныхдеревьев (нижняя часть)Если у нас есть два дерева разбора P1 и P2 для двух предложенийабзаца и отношение R12: P1i →P2j, соответствующее связи между86вершинами P1i и P2j, мы можем сформировать пару расширенныхдеревьев P1*P2:…,P1i-2, P1i-1, P1i, P2j, P2j+1, P2j+2,……,P2j-2, P2j-1, P2j, P1i, P1i+1, P2i+2,…,Эти деревья будут использованы для классификации вдополнение к исходным деревьям P1 и P2.

Необходимо отметить, чтоисходный порядок следования вершин сохраняется при примененииоперации ‘*’ (рисунок 3.3).Ниже приведен алгоритм построения расширенных деревьев наоснове множества T:Вход:1) Множество деревьев разбора T.2) Множество отношений R, которое включает в себя отношения Rijk междудеревьями Ti and Tj: Ti T, Tj T, Rijk R.

Индекс k необходимо использовать,поскольку между каждой парой деревьев может существовать несколько связей.Выход: расширенные деревья E.E = ;Для каждого дерева i=1:|T|Для каждого отношения Rijk, k= 1: |R|, j >= iВзять TjСформировать пару расширенных деревьев Ti * TjДля каждого дерева L в E:Проверить, вкладывается ли L в Ti * TjЕсли вкладывается, удалить L из EПроверить, вкладывается ли Ti * Tj в LЕсли вкладывается, не включать Ti * Tj в E и перейти к следующемуотношениюЕсли ни одно дерево не включает в себя Ti * Tj, добавить его в E;Вернуть E.87Итоговыедеревьясинтаксическогонеразбора,являютсякорректнымидеревьямиоднакоформируютадекватноепространство признаков для ядер на деревьях.Для построения связей между деревьями использовалисьследующие источники:1.

Кореферентные связи из Stanford NLP [123].2. Риторические структуры.3. Коммуникативныедействия(дляпоискаспомощьюклассификации).3.4 Оценка вычислительной сложностиЧтобы оценить сложность построения расширенных деревьев,рассмотрим усреднённый случай: 5 предложений в каждом абзаце и15 слов в каждом предложении. Мы в среднем имеем 10 связей междупредложениями,которыедаютнамверхнююграницув20расширенных деревьев для двух предложений и 60 для трех. Такимобразом, нам необходимо применить обучение для 100 деревьеввместо исходных 5.

То есть применение расширенных деревьев даетувеличение входных данных в 20 раз.Однако большинство маленьких поддеревьев повторяют другдруга и будут сокращены при снижении размерности. Также стоитотметить,чтовпромышленныхпоисковыхсистемах,гделингвистические группы хранятся в инвертированном индексе,операциявычисленияфункцииядранаподдеревьяхможетвыполняться за фиксированное время, вне зависимости от размераиндекса [109]. В случае реализации этой операции с помощьютехнологии map-reduce, например, с использованием программного88инструментаCascading[19],временнаясложностьстановитсяпостоянной и не зависит от числа деревьев [93].3.5 Эксперименты3.5.1 Поиск с помощью классификацииДля того чтобы убедиться в том, что использование множестварасширенных деревьев дает выигрыш по сравнению с использованиеммножества обычных деревьев для абзаца, мы провели эксперимент поопределению релевантности поиска [46].

Мы применили один и тотже тип ядерной функции для обучения на абзацах, формируямножество деревьев следующими способами:1. Множество деревьев для предложений абзаца.2. Все расширенные деревья для предложений абзаца.Затем мы сравнили результаты классификации, полученные врезультате применения обучающего алгоритма, для выбранныхвариантов. Важно отметить, что поиск позволяет получить доступ кнеограниченномуколичествукороткихтекстов.Вовсехэкспериментах использовался Bing API.Поскольку стандартного набора данных для сложных вопросов,состоящих из нескольких предложений, до сих пор не существует, мысоставили свой набор для мнений и отзывов о товарах.

Задачанахождения ответа на вопрос в данном случае формулируется какнахождение информации в сети, релевантной записи/выражениюмнения пользователя в блоге, на форуме или в социальной сети. Мысгенерировалимножествозапросов,являющихсятекстовымиабзацами, и запустили поисковый механизм Bing API, чтобы найтипотенциальные ответы и составить обучающую выборку.89Задача обучения формулируется как классификация множествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные. Соответствующая обучающая выборка формируетсякак множество ответов с высоким рейтингом (положительныепримеры) и множество ответов с низким рейтингом (отрицательныепримеры).

Характеристики

Тип файла

PDF-файл

Размер

2,58 Mb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.