Главная » Просмотр файлов » Диссертация

Диссертация (1137241), страница 12

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 12 страницаДиссертация (1137241) страница 122019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 12)

Применение ядер для классификации короткихтекстов3.1 ВведениеНесмотряназначительныеусилияпоформулированиюполноценной теории, описывающей связь между синтаксисом исемантикой, она все ещё не разработана. Однако конструированиесинтаксическихпризнаковдляавтоматическогообучениянасинтаксических структурах можно назвать мейнстримом. Одно изрешений для работы с такими признаками – построение и вычислениеядер на деревьях синтаксического разбора. Функция ядра (convolutionkernel) на деревьях [59] задает пространство признаков, состоящее извозможных типов поддеревьев деревьев разбора, и подсчитываетколичество общих подструктур в качестве синтаксической близостимежду деревьями. Этот подход имеет несколько приложений вразличных задачах компьютерной лингвистики, в частности, ониспользуется для извлечения отношений [61, 62], распознаванияименованных сущностей [87] и выявления семантических ролей(Semantic Role Labeling) [88], разрешения анафоры на местоимениях[95], классификации вопросов [94] и машинного перевода [96].Свойство ядер генерировать большие объемы признаковявляется полезным для быстрого моделирования новых и не оченьхорошоизученныхлингвистическихявленийвобучающихалгоритмах.

Однако всегда возможно вручную смоделироватьпризнаки для линейных ядер, для того чтобы добиться высокойточности и хорошей скорости работы, несмотря на то что сложностьядер на деревьях может помешать их применению в реальныхприложениях.80Многие обучающие алгоритмы, такие как Метод ОпорныхВекторов (SVM) [64], могут работать напрямую с ядрами с помощьюзамены скалярного произведения на конкретную функцию ядра(«трюк с ядрами»). Это полезное свойство ядер делает ихэффективным решением для моделирования структурных объектов взадачах обработки текстов на естественном языке. Некоторые их этихзадачтребуютвычислениясемантическихсвойствабзацев,содержащих несколько предложений. Использование попарногосравнения предложений не всегда является хорошим вариантом,поскольку в таком случае мы попадаем в зависимость от того, какинформация(синтаксическиегруппы)распределенымеждупредложениями.Помимо ядер на отдельных деревьях был разработан и подход кпостроению ядра, базирующегося более чем на одном дереве разбора:ядрадлялесадеревьев.Однако,какправило,такиеядраиспользовались не для обработки кусков текста, состоящих изнескольких предложений, а для других задач.

Одним из примененийлеса является задача компенсации ошибок синтаксического разбора[63]. В этом случае для каждого предложения строится лес из nлучших деревьев синтаксического разбора, что дает гораздо болеебогатый набор признаков по сравнению с одиночным деревом. Этопреимущество позволяет ядру для леса не только быть болееустойчивым по отношению к ошибкам разбора, но и давать болеенадежные значения признаков, а также помогает решить проблемуразреженности данных, которая существует в традиционных ядерныхфункциях на деревьях.В работах [91, 92], освещавших задачу поиска ответов насложные вопросы, лес деревьев применялся для обучения на текстахиз нескольких предложений. Однако связи между предложениями в81этом случае не строились и не учитывались.

Кроме того, обучениепроизводилось на ответах на все вопросы, а не только на данный (какописано в экспериментах ниже), что представляется не вполнеоправданным.В нашем исследовании [36] мы формируем лес деревьев длянескольких взаимосвязанных предложений, а не для одного. В поискеответов на вопросы, когда вопрос и ответ состоят из одногопредложения, классические методы (как раз и ориентированные наодиночные предложения) дают хорошие результаты. Однако прирешении задачи обучения на текстах, состоящих из несколькихпредложений,необходимыструктуры,взаимоотношениявнутриМыабзаца.описывающиедемонстрируем,чтовопределенных случаях использование семантической информации дляобучения и рассмотрение абзацев и связей внутри абзаца даетпреимущество по сравнению со стандартными методами.3.2 Пример расширения деревьев разбораПрианализепредложенийкороткихнедостаточнотекстовдляпопарногосравненияполноценногообучениясемантическим свойствам текста.

Этот факт связан с существованиемразличных способов распределения информации по несколькимпредложениям и различных семантических структур, которыми можетбыть наделен текст и которые необходимо учитывать.Рассмотрим пример, в котором короткие фрагменты текстапринадлежат двум классам: Налоговые обязательства владельца, сдающего свой офисорганизации или бизнесмену. Налоговыеобязательствабизнесменаарендующей офис у владельца.илиорганизации,82I rent an office space. This office is for my business. I can deduct office rentalexpense from my business profit to calculate net income.To run my business, I have to rent an office. The net business profit is calculated asfollows. Rental expense needs to be subtracted from revenue.To store goods for my retail business I rent some space.

When I calculate the netincome, I take revenue and subtract business expenses such as office rent.I rent out a first floor unit of my house to a travel business. I need to add the rentalincome to my profit. However, when I repair my house, I can deduct the repair expensefrom my rental income.I receive rental income from my office.

I have to claim it as a profit in my tax forms. Ineed to add my rental income to my profits, but subtract rental expenses such as repairfrom it.I advertised my property as a business rental. Advertisement and repair expenses canbe subtracted from the rental income. Remaining rental income needs to be added to myprofit and be reported as taxable profit.Во-первых, отметим, что анализ с помощью ключевых слов непомогает отделить первые три абзаца от последних трех. Все онисодержат ключевые слова rental/office/income/profit/add/subtract.Анализ, основанный на использовании синтаксических групп, вданном случае оказывается бесполезным по аналогичной причине.Попарноесравнениепредложенийтакженерешаетпоставленную проблему.Использование кореферентных связей между предложениями(разрешение анафоры) помогает, но лишь частично: все этипредложения содержат местоимение ‘I’ и отсылки к нему. В связи сэтим очевидно, что необходимо использование дополнительныхсвязей между предложениями.

Источником таких связей могут83служить риторические структуры, уже использовавшиеся ранее.Структуры, описывающие фразы renting for yourself and deducting fromtotal income и renting to someone and adding to income, затрагиваютнесколько предложений. Второе условие adding/subtracting incomesсвязано риторическим отношением elaboration с первым аргументомдля landlord/tenant. Это риторическое отношение может связыватьсемантическиеблоки,расположенныевнутрипредложения,впредложениях, идущих друг за другом, и даже в предложениях, междукоторыми есть другие предложения, например, блоки в 1 и 3предложениях.Нарисункекореферентныесвязи3.1дляпоказаныдеревьяпредложенийзависимостейпервоготекста.иЕстьнесколько способов, с помощью которых можно соединить вершиныразных деревьев: мы выбрали риторическое отношение elaboration,которое помогает нам сформировать структуру rent-office-space – formy-business – deduct-rental-expense, являющуюся базой для нашейклассификации.

Мы использовали Stanford Core NLP, модуль дляработы с кореферентными связями [60], включающий средство длявизуализации, для того чтобы построить связи, изображенные нарисунках 3.1 и 3.2.84Рис.3.1. Кореферентные связи и множество деревьев зависимостей дляпервого текста.Рис. 3.2. Расширенное дерево, включающее фрагменты трех предложенийНа рисунке 3.2 изображено итоговое дерево с корнем ‘I’ изпервого предложения. Оно полностью включает в себя первое дерево,глагольную группу из второго предложения и глагольную группу изтретьего предложения в соответствии с риторическим отношениемelaboration.

Необходимо отметить, чтоинтуитивнойточкизренияэто расширенное дерево сможетрассматриватьсякак85представляющее «главную идею» текста в сравнении с остальнымитекстами в нашем множестве. Поскольку заранее неизвестно, какоеименно дерево окажется ключевым, необходимо сформировать всерасширенные деревья для текста и затем сопоставить их с деревьямиостальныхтекстов.расширенныеСдеревьяточкимогутзрениябытьобучениянаиспользованыдеревьях,совершенноаналогично обычным деревьям разбора.3.3 Алгоритм построения расширенных деревьевДлякаждойдуги,соединяющейдвадереваразбора,построенные для предложений, мы строим пару расширенныхдеревьев, делая новый переход по этой дуге (рисунок 3.3).P11P21P1iP2jP2j+1Рис.

3.3. Дуга, которая соединяет два дерева разбора для двух предложенийв тексте (верхняя часть), и полученное на её основе множество расширенныхдеревьев (нижняя часть)Если у нас есть два дерева разбора P1 и P2 для двух предложенийабзаца и отношение R12: P1i →P2j, соответствующее связи между86вершинами P1i и P2j, мы можем сформировать пару расширенныхдеревьев P1*P2:…,P1i-2, P1i-1, P1i, P2j, P2j+1, P2j+2,……,P2j-2, P2j-1, P2j, P1i, P1i+1, P2i+2,…,Эти деревья будут использованы для классификации вдополнение к исходным деревьям P1 и P2.

Необходимо отметить, чтоисходный порядок следования вершин сохраняется при примененииоперации ‘*’ (рисунок 3.3).Ниже приведен алгоритм построения расширенных деревьев наоснове множества T:Вход:1) Множество деревьев разбора T.2) Множество отношений R, которое включает в себя отношения Rijk междудеревьями Ti and Tj: Ti T, Tj T, Rijk R.

Индекс k необходимо использовать,поскольку между каждой парой деревьев может существовать несколько связей.Выход: расширенные деревья E.E = ;Для каждого дерева i=1:|T|Для каждого отношения Rijk, k= 1: |R|, j >= iВзять TjСформировать пару расширенных деревьев Ti * TjДля каждого дерева L в E:Проверить, вкладывается ли L в Ti * TjЕсли вкладывается, удалить L из EПроверить, вкладывается ли Ti * Tj в LЕсли вкладывается, не включать Ti * Tj в E и перейти к следующемуотношениюЕсли ни одно дерево не включает в себя Ti * Tj, добавить его в E;Вернуть E.87Итоговыесинтаксическогодеревьянеразбора,являютсякорректнымидеревьямиоднакоформируютадекватноепространство признаков для ядер на деревьях.Для построения связей между деревьями использовалисьследующие источники:1.

Характеристики

Список файлов диссертации

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее