Диссертация (1137241), страница 12
Текст из файла (страница 12)
Применение ядер для классификации короткихтекстов3.1 ВведениеНесмотряназначительныеусилияпоформулированиюполноценной теории, описывающей связь между синтаксисом исемантикой, она все ещё не разработана. Однако конструированиесинтаксическихпризнаковдляавтоматическогообучениянасинтаксических структурах можно назвать мейнстримом. Одно изрешений для работы с такими признаками – построение и вычислениеядер на деревьях синтаксического разбора. Функция ядра (convolutionkernel) на деревьях [59] задает пространство признаков, состоящее извозможных типов поддеревьев деревьев разбора, и подсчитываетколичество общих подструктур в качестве синтаксической близостимежду деревьями. Этот подход имеет несколько приложений вразличных задачах компьютерной лингвистики, в частности, ониспользуется для извлечения отношений [61, 62], распознаванияименованных сущностей [87] и выявления семантических ролей(Semantic Role Labeling) [88], разрешения анафоры на местоимениях[95], классификации вопросов [94] и машинного перевода [96].Свойство ядер генерировать большие объемы признаковявляется полезным для быстрого моделирования новых и не оченьхорошоизученныхлингвистическихявленийвобучающихалгоритмах.
Однако всегда возможно вручную смоделироватьпризнаки для линейных ядер, для того чтобы добиться высокойточности и хорошей скорости работы, несмотря на то что сложностьядер на деревьях может помешать их применению в реальныхприложениях.80Многие обучающие алгоритмы, такие как Метод ОпорныхВекторов (SVM) [64], могут работать напрямую с ядрами с помощьюзамены скалярного произведения на конкретную функцию ядра(«трюк с ядрами»). Это полезное свойство ядер делает ихэффективным решением для моделирования структурных объектов взадачах обработки текстов на естественном языке. Некоторые их этихзадачтребуютвычислениясемантическихсвойствабзацев,содержащих несколько предложений. Использование попарногосравнения предложений не всегда является хорошим вариантом,поскольку в таком случае мы попадаем в зависимость от того, какинформация(синтаксическиегруппы)распределенымеждупредложениями.Помимо ядер на отдельных деревьях был разработан и подход кпостроению ядра, базирующегося более чем на одном дереве разбора:ядрадлялесадеревьев.Однако,какправило,такиеядраиспользовались не для обработки кусков текста, состоящих изнескольких предложений, а для других задач.
Одним из примененийлеса является задача компенсации ошибок синтаксического разбора[63]. В этом случае для каждого предложения строится лес из nлучших деревьев синтаксического разбора, что дает гораздо болеебогатый набор признаков по сравнению с одиночным деревом. Этопреимущество позволяет ядру для леса не только быть болееустойчивым по отношению к ошибкам разбора, но и давать болеенадежные значения признаков, а также помогает решить проблемуразреженности данных, которая существует в традиционных ядерныхфункциях на деревьях.В работах [91, 92], освещавших задачу поиска ответов насложные вопросы, лес деревьев применялся для обучения на текстахиз нескольких предложений. Однако связи между предложениями в81этом случае не строились и не учитывались.
Кроме того, обучениепроизводилось на ответах на все вопросы, а не только на данный (какописано в экспериментах ниже), что представляется не вполнеоправданным.В нашем исследовании [36] мы формируем лес деревьев длянескольких взаимосвязанных предложений, а не для одного. В поискеответов на вопросы, когда вопрос и ответ состоят из одногопредложения, классические методы (как раз и ориентированные наодиночные предложения) дают хорошие результаты. Однако прирешении задачи обучения на текстах, состоящих из несколькихпредложений,необходимыструктуры,взаимоотношениявнутриМыабзаца.описывающиедемонстрируем,чтовопределенных случаях использование семантической информации дляобучения и рассмотрение абзацев и связей внутри абзаца даетпреимущество по сравнению со стандартными методами.3.2 Пример расширения деревьев разбораПрианализепредложенийкороткихнедостаточнотекстовдляпопарногосравненияполноценногообучениясемантическим свойствам текста.
Этот факт связан с существованиемразличных способов распределения информации по несколькимпредложениям и различных семантических структур, которыми можетбыть наделен текст и которые необходимо учитывать.Рассмотрим пример, в котором короткие фрагменты текстапринадлежат двум классам: Налоговые обязательства владельца, сдающего свой офисорганизации или бизнесмену. Налоговыеобязательствабизнесменаарендующей офис у владельца.илиорганизации,82I rent an office space. This office is for my business. I can deduct office rentalexpense from my business profit to calculate net income.To run my business, I have to rent an office. The net business profit is calculated asfollows. Rental expense needs to be subtracted from revenue.To store goods for my retail business I rent some space.
When I calculate the netincome, I take revenue and subtract business expenses such as office rent.I rent out a first floor unit of my house to a travel business. I need to add the rentalincome to my profit. However, when I repair my house, I can deduct the repair expensefrom my rental income.I receive rental income from my office.
I have to claim it as a profit in my tax forms. Ineed to add my rental income to my profits, but subtract rental expenses such as repairfrom it.I advertised my property as a business rental. Advertisement and repair expenses canbe subtracted from the rental income. Remaining rental income needs to be added to myprofit and be reported as taxable profit.Во-первых, отметим, что анализ с помощью ключевых слов непомогает отделить первые три абзаца от последних трех. Все онисодержат ключевые слова rental/office/income/profit/add/subtract.Анализ, основанный на использовании синтаксических групп, вданном случае оказывается бесполезным по аналогичной причине.Попарноесравнениепредложенийтакженерешаетпоставленную проблему.Использование кореферентных связей между предложениями(разрешение анафоры) помогает, но лишь частично: все этипредложения содержат местоимение ‘I’ и отсылки к нему. В связи сэтим очевидно, что необходимо использование дополнительныхсвязей между предложениями.
Источником таких связей могут83служить риторические структуры, уже использовавшиеся ранее.Структуры, описывающие фразы renting for yourself and deducting fromtotal income и renting to someone and adding to income, затрагиваютнесколько предложений. Второе условие adding/subtracting incomesсвязано риторическим отношением elaboration с первым аргументомдля landlord/tenant. Это риторическое отношение может связыватьсемантическиеблоки,расположенныевнутрипредложения,впредложениях, идущих друг за другом, и даже в предложениях, междукоторыми есть другие предложения, например, блоки в 1 и 3предложениях.Нарисункекореферентныесвязи3.1дляпоказаныдеревьяпредложенийзависимостейпервоготекста.иЕстьнесколько способов, с помощью которых можно соединить вершиныразных деревьев: мы выбрали риторическое отношение elaboration,которое помогает нам сформировать структуру rent-office-space – formy-business – deduct-rental-expense, являющуюся базой для нашейклассификации.
Мы использовали Stanford Core NLP, модуль дляработы с кореферентными связями [60], включающий средство длявизуализации, для того чтобы построить связи, изображенные нарисунках 3.1 и 3.2.84Рис.3.1. Кореферентные связи и множество деревьев зависимостей дляпервого текста.Рис. 3.2. Расширенное дерево, включающее фрагменты трех предложенийНа рисунке 3.2 изображено итоговое дерево с корнем ‘I’ изпервого предложения. Оно полностью включает в себя первое дерево,глагольную группу из второго предложения и глагольную группу изтретьего предложения в соответствии с риторическим отношениемelaboration.
Необходимо отметить, чтоинтуитивнойточкизренияэто расширенное дерево сможетрассматриватьсякак85представляющее «главную идею» текста в сравнении с остальнымитекстами в нашем множестве. Поскольку заранее неизвестно, какоеименно дерево окажется ключевым, необходимо сформировать всерасширенные деревья для текста и затем сопоставить их с деревьямиостальныхтекстов.расширенныеСдеревьяточкимогутзрениябытьобучениянаиспользованыдеревьях,совершенноаналогично обычным деревьям разбора.3.3 Алгоритм построения расширенных деревьевДлякаждойдуги,соединяющейдвадереваразбора,построенные для предложений, мы строим пару расширенныхдеревьев, делая новый переход по этой дуге (рисунок 3.3).P11P21P1iP2jP2j+1Рис.
3.3. Дуга, которая соединяет два дерева разбора для двух предложенийв тексте (верхняя часть), и полученное на её основе множество расширенныхдеревьев (нижняя часть)Если у нас есть два дерева разбора P1 и P2 для двух предложенийабзаца и отношение R12: P1i →P2j, соответствующее связи между86вершинами P1i и P2j, мы можем сформировать пару расширенныхдеревьев P1*P2:…,P1i-2, P1i-1, P1i, P2j, P2j+1, P2j+2,……,P2j-2, P2j-1, P2j, P1i, P1i+1, P2i+2,…,Эти деревья будут использованы для классификации вдополнение к исходным деревьям P1 и P2.
Необходимо отметить, чтоисходный порядок следования вершин сохраняется при примененииоперации ‘*’ (рисунок 3.3).Ниже приведен алгоритм построения расширенных деревьев наоснове множества T:Вход:1) Множество деревьев разбора T.2) Множество отношений R, которое включает в себя отношения Rijk междудеревьями Ti and Tj: Ti T, Tj T, Rijk R.
Индекс k необходимо использовать,поскольку между каждой парой деревьев может существовать несколько связей.Выход: расширенные деревья E.E = ;Для каждого дерева i=1:|T|Для каждого отношения Rijk, k= 1: |R|, j >= iВзять TjСформировать пару расширенных деревьев Ti * TjДля каждого дерева L в E:Проверить, вкладывается ли L в Ti * TjЕсли вкладывается, удалить L из EПроверить, вкладывается ли Ti * Tj в LЕсли вкладывается, не включать Ti * Tj в E и перейти к следующемуотношениюЕсли ни одно дерево не включает в себя Ti * Tj, добавить его в E;Вернуть E.87Итоговыесинтаксическогодеревьянеразбора,являютсякорректнымидеревьямиоднакоформируютадекватноепространство признаков для ядер на деревьях.Для построения связей между деревьями использовалисьследующие источники:1.