Диссертация (1137218), страница 12
Текст из файла (страница 12)
Использование попарногосравнения предложений не всегда является хорошим вариантом,поскольку в таком случае мы попадаем в зависимость от того, какинформация(синтаксическиегруппы)распределенымеждупредложениями.Помимо ядер на отдельных деревьях был разработан и подход кпостроению ядра, базирующегося более чем на одном дереве разбора:ядрадлялесадеревьев.Однако,какправило,такиеядраиспользовались не для обработки кусков текста, состоящих изнескольких предложений, а для других задач. Одним из примененийлеса является задача компенсации ошибок синтаксического разбора[80]. В этом случае для каждого предложения строится лес из nлучших деревьев синтаксического разбора, что дает гораздо болеебогатый набор признаков по сравнению с одиночным деревом.
Этопреимущество позволяет ядру для леса не только быть болееустойчивым по отношению к ошибкам разбора, но и давать болеенадежные значения признаков, а также помогает решить проблемуразреженности данных, которая существует в традиционных ядерныхфункциях на деревьях.В работах [115, 116], освещавших задачу поиска ответов насложные вопросы, лес деревьев применялся для обучения на текстахиз нескольких предложений. Однако связи между предложениями в81этом случае не строились и не учитывались. Кроме того, обучениепроизводилось на ответах на все вопросы, а не только на данный (какописано в экспериментах ниже), что представляется не вполнеоправданным.В нашем исследовании [46] мы формируем лес деревьев длянескольких взаимосвязанных предложений, а не для одного. В поискеответов на вопросы, когда вопрос и ответ состоят из одногопредложения, классические методы (как раз и ориентированные наодиночные предложения) дают хорошие результаты. Однако прирешении задачи обучения на текстах, состоящих из несколькихпредложений,необходимыструктуры,взаимоотношениявнутриМыабзаца.описывающиедемонстрируем,чтовопределенных случаях использование дискурсивной информации дляобучения и рассмотрение абзацев и связей внутри абзаца даетпреимущество по сравнению со стандартными методами.3.2 Пример расширения деревьев разбораПрианализепредложенийкороткихнедостаточнотекстовдляпопарногосравненияполноценногообучениядискурсивным свойствам текста.
Этот факт связан с существованиемразличных способов распределения информации по несколькимпредложениям и различных дискурсивных структур, которыми можетбыть наделен текст и которые необходимо учитывать.Рассмотрим пример, в котором короткие фрагменты текстапринадлежат двум классам: Налоговые обязательства владельца, сдающего свой офисорганизации или бизнесмену. Налоговыеобязательствабизнесменаарендующей офис у владельца.илиорганизации,82I rent an office space.
This office is for my business. I can deduct office rentalexpense from my business profit to calculate net income.To run my business, I have to rent an office. The net business profit is calculated asfollows. Rental expense needs to be subtracted from revenue.To store goods for my retail business I rent some space. When I calculate the netincome, I take revenue and subtract business expenses such as office rent.I rent out a first floor unit of my house to a travel business.
I need to add the rentalincome to my profit. However, when I repair my house, I can deduct the repair expensefrom my rental income.I receive rental income from my office. I have to claim it as a profit in my tax forms. Ineed to add my rental income to my profits, but subtract rental expenses such as repairfrom it.I advertised my property as a business rental. Advertisement and repair expenses canbe subtracted from the rental income.
Remaining rental income needs to be added to myprofit and be reported as taxable profit.Во-первых, отметим, что анализ с помощью ключевых слов непомогает отделить первые три абзаца от последних трех. Все онисодержат ключевые слова rental/office/income/profit/add/subtract.Анализ, основанный на использовании синтаксических групп, вданном случае оказывается бесполезным по аналогичной причине.Попарноесравнениепредложенийтакженерешаетпоставленную проблему.Использование кореферентных связей между предложениями(разрешение анафоры) помогает, но лишь частично: все этипредложения содержат местоимение ‘I’ и отсылки к нему. В связи сэтим очевидно, что необходимо использование дополнительныхсвязей между предложениями. Источником таких связей могут83служить риторические структуры, уже использовавшиеся ранее.Структуры, описывающие фразы renting for yourself and deducting fromtotal income и renting to someone and adding to income, затрагиваютнесколько предложений.
Второе условие adding/subtracting incomesсвязано риторическим отношением elaboration с первым аргументомдля landlord/tenant. Это риторическое отношение может связыватьблоки, расположенные внутри предложения, в предложениях, идущихдруг за другом, и даже в предложениях, между которыми есть другиепредложения, например, блоки в 1 и 3 предложениях.Нарисункекореферентныесвязи3.1дляпоказаныдеревьяпредложенийзависимостейпервоготекста.иЕстьнесколько способов, с помощью которых можно соединить вершиныразных деревьев: мы выбрали риторическое отношение elaboration,которое помогает нам сформировать структуру rent-office-space – formy-business – deduct-rental-expense, являющуюся базой для нашейклассификации.
Мы использовали Stanford Core NLP, модуль дляработы с кореферентными связями [77], включающий средство длявизуализации, для того чтобы построить связи, изображенные нарисунках 3.1 и 3.2.84Рис.3.1. Кореферентные связи и множество деревьев зависимостей дляпервого текста.Рис. 3.2. Расширенное дерево, включающее фрагменты трех предложенийНа рисунке 3.2 изображено итоговое дерево с корнем ‘I’ изпервого предложения. Оно полностью включает в себя первое дерево,глагольную группу из второго предложения и глагольную группу изтретьего предложения в соответствии с риторическим отношениемelaboration.
Необходимо отметить, чтоинтуитивнойточкизренияэто расширенное дерево сможетрассматриватьсякак85представляющее «главную идею» текста в сравнении с остальнымитекстами в нашем множестве. Поскольку заранее неизвестно, какоеименно дерево окажется ключевым, необходимо сформировать всерасширенные деревья для текста и затем сопоставить их с деревьямиостальныхтекстов.расширенныеСдеревьяточкимогутзрениябытьобучениянаиспользованыдеревьях,совершенноаналогично обычным деревьям разбора.3.3 Алгоритм построения расширенных деревьевДлякаждойдуги,соединяющейдвадереваразбора,построенные для предложений, мы строим пару расширенныхдеревьев, делая новый переход по этой дуге (рисунок 3.3).P11P21P1iP2jP2j+1Рис.
3.3. Дуга, которая соединяет два дерева разбора для двух предложенийв тексте (верхняя часть), и полученное на её основе множество расширенныхдеревьев (нижняя часть)Если у нас есть два дерева разбора P1 и P2 для двух предложенийабзаца и отношение R12: P1i →P2j, соответствующее связи между86вершинами P1i и P2j, мы можем сформировать пару расширенныхдеревьев P1*P2:…,P1i-2, P1i-1, P1i, P2j, P2j+1, P2j+2,……,P2j-2, P2j-1, P2j, P1i, P1i+1, P2i+2,…,Эти деревья будут использованы для классификации вдополнение к исходным деревьям P1 и P2.
Необходимо отметить, чтоисходный порядок следования вершин сохраняется при примененииоперации ‘*’ (рисунок 3.3).Ниже приведен алгоритм построения расширенных деревьев наоснове множества T:Вход:1) Множество деревьев разбора T.2) Множество отношений R, которое включает в себя отношения Rijk междудеревьями Ti and Tj: Ti T, Tj T, Rijk R.
Индекс k необходимо использовать,поскольку между каждой парой деревьев может существовать несколько связей.Выход: расширенные деревья E.E = ;Для каждого дерева i=1:|T|Для каждого отношения Rijk, k= 1: |R|, j >= iВзять TjСформировать пару расширенных деревьев Ti * TjДля каждого дерева L в E:Проверить, вкладывается ли L в Ti * TjЕсли вкладывается, удалить L из EПроверить, вкладывается ли Ti * Tj в LЕсли вкладывается, не включать Ti * Tj в E и перейти к следующемуотношениюЕсли ни одно дерево не включает в себя Ti * Tj, добавить его в E;Вернуть E.87Итоговыедеревьясинтаксическогонеразбора,являютсякорректнымидеревьямиоднакоформируютадекватноепространство признаков для ядер на деревьях.Для построения связей между деревьями использовалисьследующие источники:1.
Кореферентные связи из Stanford NLP [123].2. Риторические структуры.3. Коммуникативныедействия(дляпоискаспомощьюклассификации).3.4 Оценка вычислительной сложностиЧтобы оценить сложность построения расширенных деревьев,рассмотрим усреднённый случай: 5 предложений в каждом абзаце и15 слов в каждом предложении. Мы в среднем имеем 10 связей междупредложениями,которыедаютнамверхнююграницув20расширенных деревьев для двух предложений и 60 для трех. Такимобразом, нам необходимо применить обучение для 100 деревьеввместо исходных 5.
То есть применение расширенных деревьев даетувеличение входных данных в 20 раз.Однако большинство маленьких поддеревьев повторяют другдруга и будут сокращены при снижении размерности. Также стоитотметить,чтовпромышленныхпоисковыхсистемах,гделингвистические группы хранятся в инвертированном индексе,операциявычисленияфункцииядранаподдеревьяхможетвыполняться за фиксированное время, вне зависимости от размераиндекса [109]. В случае реализации этой операции с помощьютехнологии map-reduce, например, с использованием программного88инструментаCascading[19],временнаясложностьстановитсяпостоянной и не зависит от числа деревьев [93].3.5 Эксперименты3.5.1 Поиск с помощью классификацииДля того чтобы убедиться в том, что использование множестварасширенных деревьев дает выигрыш по сравнению с использованиеммножества обычных деревьев для абзаца, мы провели эксперимент поопределению релевантности поиска [46].
Мы применили один и тотже тип ядерной функции для обучения на абзацах, формируямножество деревьев следующими способами:1. Множество деревьев для предложений абзаца.2. Все расширенные деревья для предложений абзаца.Затем мы сравнили результаты классификации, полученные врезультате применения обучающего алгоритма, для выбранныхвариантов. Важно отметить, что поиск позволяет получить доступ кнеограниченномуколичествукороткихтекстов.Вовсехэкспериментах использовался Bing API.Поскольку стандартного набора данных для сложных вопросов,состоящих из нескольких предложений, до сих пор не существует, мысоставили свой набор для мнений и отзывов о товарах.
Задачанахождения ответа на вопрос в данном случае формулируется какнахождение информации в сети, релевантной записи/выражениюмнения пользователя в блоге, на форуме или в социальной сети. Мысгенерировалимножествозапросов,являющихсятекстовымиабзацами, и запустили поисковый механизм Bing API, чтобы найтипотенциальные ответы и составить обучающую выборку.89Задача обучения формулируется как классификация множествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные. Соответствующая обучающая выборка формируетсякак множество ответов с высоким рейтингом (положительныепримеры) и множество ответов с низким рейтингом (отрицательныепримеры).