Диссертация (1137241), страница 12

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 12 страницаДиссертация (1137241) страница 122019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 12)

Применение ядер для классификации короткихтекстов3.1 ВведениеНесмотряназначительныеусилияпоформулированиюполноценной теории, описывающей связь между синтаксисом исемантикой, она все ещё не разработана. Однако конструированиесинтаксическихпризнаковдляавтоматическогообучениянасинтаксических структурах можно назвать мейнстримом. Одно изрешений для работы с такими признаками – построение и вычислениеядер на деревьях синтаксического разбора. Функция ядра (convolutionkernel) на деревьях [59] задает пространство признаков, состоящее извозможных типов поддеревьев деревьев разбора, и подсчитываетколичество общих подструктур в качестве синтаксической близостимежду деревьями. Этот подход имеет несколько приложений вразличных задачах компьютерной лингвистики, в частности, ониспользуется для извлечения отношений [61, 62], распознаванияименованных сущностей [87] и выявления семантических ролей(Semantic Role Labeling) [88], разрешения анафоры на местоимениях[95], классификации вопросов [94] и машинного перевода [96].Свойство ядер генерировать большие объемы признаковявляется полезным для быстрого моделирования новых и не оченьхорошоизученныхлингвистическихявленийвобучающихалгоритмах.

Однако всегда возможно вручную смоделироватьпризнаки для линейных ядер, для того чтобы добиться высокойточности и хорошей скорости работы, несмотря на то что сложностьядер на деревьях может помешать их применению в реальныхприложениях.80Многие обучающие алгоритмы, такие как Метод ОпорныхВекторов (SVM) [64], могут работать напрямую с ядрами с помощьюзамены скалярного произведения на конкретную функцию ядра(«трюк с ядрами»). Это полезное свойство ядер делает ихэффективным решением для моделирования структурных объектов взадачах обработки текстов на естественном языке. Некоторые их этихзадачтребуютвычислениясемантическихсвойствабзацев,содержащих несколько предложений. Использование попарногосравнения предложений не всегда является хорошим вариантом,поскольку в таком случае мы попадаем в зависимость от того, какинформация(синтаксическиегруппы)распределенымеждупредложениями.Помимо ядер на отдельных деревьях был разработан и подход кпостроению ядра, базирующегося более чем на одном дереве разбора:ядрадлялесадеревьев.Однако,какправило,такиеядраиспользовались не для обработки кусков текста, состоящих изнескольких предложений, а для других задач.

Одним из примененийлеса является задача компенсации ошибок синтаксического разбора[63]. В этом случае для каждого предложения строится лес из nлучших деревьев синтаксического разбора, что дает гораздо болеебогатый набор признаков по сравнению с одиночным деревом. Этопреимущество позволяет ядру для леса не только быть болееустойчивым по отношению к ошибкам разбора, но и давать болеенадежные значения признаков, а также помогает решить проблемуразреженности данных, которая существует в традиционных ядерныхфункциях на деревьях.В работах [91, 92], освещавших задачу поиска ответов насложные вопросы, лес деревьев применялся для обучения на текстахиз нескольких предложений. Однако связи между предложениями в81этом случае не строились и не учитывались.

Кроме того, обучениепроизводилось на ответах на все вопросы, а не только на данный (какописано в экспериментах ниже), что представляется не вполнеоправданным.В нашем исследовании [36] мы формируем лес деревьев длянескольких взаимосвязанных предложений, а не для одного. В поискеответов на вопросы, когда вопрос и ответ состоят из одногопредложения, классические методы (как раз и ориентированные наодиночные предложения) дают хорошие результаты. Однако прирешении задачи обучения на текстах, состоящих из несколькихпредложений,необходимыструктуры,взаимоотношениявнутриМыабзаца.описывающиедемонстрируем,чтовопределенных случаях использование семантической информации дляобучения и рассмотрение абзацев и связей внутри абзаца даетпреимущество по сравнению со стандартными методами.3.2 Пример расширения деревьев разбораПрианализепредложенийкороткихнедостаточнотекстовдляпопарногосравненияполноценногообучениясемантическим свойствам текста.

Этот факт связан с существованиемразличных способов распределения информации по несколькимпредложениям и различных семантических структур, которыми можетбыть наделен текст и которые необходимо учитывать.Рассмотрим пример, в котором короткие фрагменты текстапринадлежат двум классам: Налоговые обязательства владельца, сдающего свой офисорганизации или бизнесмену. Налоговыеобязательствабизнесменаарендующей офис у владельца.илиорганизации,82I rent an office space. This office is for my business. I can deduct office rentalexpense from my business profit to calculate net income.To run my business, I have to rent an office. The net business profit is calculated asfollows. Rental expense needs to be subtracted from revenue.To store goods for my retail business I rent some space.

When I calculate the netincome, I take revenue and subtract business expenses such as office rent.I rent out a first floor unit of my house to a travel business. I need to add the rentalincome to my profit. However, when I repair my house, I can deduct the repair expensefrom my rental income.I receive rental income from my office.

I have to claim it as a profit in my tax forms. Ineed to add my rental income to my profits, but subtract rental expenses such as repairfrom it.I advertised my property as a business rental. Advertisement and repair expenses canbe subtracted from the rental income. Remaining rental income needs to be added to myprofit and be reported as taxable profit.Во-первых, отметим, что анализ с помощью ключевых слов непомогает отделить первые три абзаца от последних трех. Все онисодержат ключевые слова rental/office/income/profit/add/subtract.Анализ, основанный на использовании синтаксических групп, вданном случае оказывается бесполезным по аналогичной причине.Попарноесравнениепредложенийтакженерешаетпоставленную проблему.Использование кореферентных связей между предложениями(разрешение анафоры) помогает, но лишь частично: все этипредложения содержат местоимение ‘I’ и отсылки к нему. В связи сэтим очевидно, что необходимо использование дополнительныхсвязей между предложениями.

Источником таких связей могут83служить риторические структуры, уже использовавшиеся ранее.Структуры, описывающие фразы renting for yourself and deducting fromtotal income и renting to someone and adding to income, затрагиваютнесколько предложений. Второе условие adding/subtracting incomesсвязано риторическим отношением elaboration с первым аргументомдля landlord/tenant. Это риторическое отношение может связыватьсемантическиеблоки,расположенныевнутрипредложения,впредложениях, идущих друг за другом, и даже в предложениях, междукоторыми есть другие предложения, например, блоки в 1 и 3предложениях.Нарисункекореферентныесвязи3.1дляпоказаныдеревьяпредложенийзависимостейпервоготекста.иЕстьнесколько способов, с помощью которых можно соединить вершиныразных деревьев: мы выбрали риторическое отношение elaboration,которое помогает нам сформировать структуру rent-office-space – formy-business – deduct-rental-expense, являющуюся базой для нашейклассификации.

Мы использовали Stanford Core NLP, модуль дляработы с кореферентными связями [60], включающий средство длявизуализации, для того чтобы построить связи, изображенные нарисунках 3.1 и 3.2.84Рис.3.1. Кореферентные связи и множество деревьев зависимостей дляпервого текста.Рис. 3.2. Расширенное дерево, включающее фрагменты трех предложенийНа рисунке 3.2 изображено итоговое дерево с корнем ‘I’ изпервого предложения. Оно полностью включает в себя первое дерево,глагольную группу из второго предложения и глагольную группу изтретьего предложения в соответствии с риторическим отношениемelaboration.

Необходимо отметить, чтоинтуитивнойточкизренияэто расширенное дерево сможетрассматриватьсякак85представляющее «главную идею» текста в сравнении с остальнымитекстами в нашем множестве. Поскольку заранее неизвестно, какоеименно дерево окажется ключевым, необходимо сформировать всерасширенные деревья для текста и затем сопоставить их с деревьямиостальныхтекстов.расширенныеСдеревьяточкимогутзрениябытьобучениянаиспользованыдеревьях,совершенноаналогично обычным деревьям разбора.3.3 Алгоритм построения расширенных деревьевДлякаждойдуги,соединяющейдвадереваразбора,построенные для предложений, мы строим пару расширенныхдеревьев, делая новый переход по этой дуге (рисунок 3.3).P11P21P1iP2jP2j+1Рис.

3.3. Дуга, которая соединяет два дерева разбора для двух предложенийв тексте (верхняя часть), и полученное на её основе множество расширенныхдеревьев (нижняя часть)Если у нас есть два дерева разбора P1 и P2 для двух предложенийабзаца и отношение R12: P1i →P2j, соответствующее связи между86вершинами P1i и P2j, мы можем сформировать пару расширенныхдеревьев P1*P2:…,P1i-2, P1i-1, P1i, P2j, P2j+1, P2j+2,……,P2j-2, P2j-1, P2j, P1i, P1i+1, P2i+2,…,Эти деревья будут использованы для классификации вдополнение к исходным деревьям P1 и P2.

Необходимо отметить, чтоисходный порядок следования вершин сохраняется при примененииоперации ‘*’ (рисунок 3.3).Ниже приведен алгоритм построения расширенных деревьев наоснове множества T:Вход:1) Множество деревьев разбора T.2) Множество отношений R, которое включает в себя отношения Rijk междудеревьями Ti and Tj: Ti T, Tj T, Rijk R.

Индекс k необходимо использовать,поскольку между каждой парой деревьев может существовать несколько связей.Выход: расширенные деревья E.E = ;Для каждого дерева i=1:|T|Для каждого отношения Rijk, k= 1: |R|, j >= iВзять TjСформировать пару расширенных деревьев Ti * TjДля каждого дерева L в E:Проверить, вкладывается ли L в Ti * TjЕсли вкладывается, удалить L из EПроверить, вкладывается ли Ti * Tj в LЕсли вкладывается, не включать Ti * Tj в E и перейти к следующемуотношениюЕсли ни одно дерево не включает в себя Ti * Tj, добавить его в E;Вернуть E.87Итоговыесинтаксическогодеревьянеразбора,являютсякорректнымидеревьямиоднакоформируютадекватноепространство признаков для ядер на деревьях.Для построения связей между деревьями использовалисьследующие источники:1.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.