Диссертация (1137241), страница 13

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 13 страницаДиссертация (1137241) страница 132019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Кореферентные связи из Stanford NLP [99].2. Риторические структуры.3. Коммуникативные действия.3.4 Оценка улучшения качества классификацииДля того чтобы убедиться в том, что использование множестварасширенных деревьев дает выигрыш по сравнению с использованиеммножества обычных деревьев для абзаца, мы провели эксперимент поопределению релевантности поиска. Мы применили один и тот же типядра для обучения на абзацах, формируя множество деревьевследующими способами:1. Множество деревьев для предложений абзаца.2. Все расширенные деревья для предложений абзаца.Затем мы сравниваем результаты классификации, полученные врезультате применения обучающего алгоритма, для выбранныхвариантов.

Мы выбрали поиск, поскольку он позволяет получитьдоступ к неограниченному количеству коротких текстов. В данномслучае для решения задачи релевантности мы применили обучающиеалгоритмы. Во всех экспериментах использовался Bing API.Поскольку стандартного набора данных для сложных вопросов,состоящих из нескольких предложений, до сих пор не существует, мысоставили свой набор для мнений и отзывов о товарах. Задача88нахождения ответа на вопрос в данном случае формулируется какнахождение информации в сети, релевантной записи/выражениюмнения пользователя в блоге, на форуме или в социальной сети.

Мысгенерировалимножествозапросов,являющихсятекстовымиабзацами, и запустили поисковый механизм Bing API, чтобы найтипотенциальные ответы и составить обучающую выборку.Задача обучения формулируется как классификация множествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные. Соответствующая обучающая выборка формируетсякак множество ответов с высоким рейтингом (положительныепримеры) и множество ответов с низким рейтингом (отрицательныепримеры).

Тестовая выборка формируется из оставшегося множествапутем случайного выбора. Для каждого результата мы используем его«сниппет»,аизвлеченныйтакжесосоответствующийстраницы.Этотемуфрагментэксперименттекста,базируетсянапредположении, что верхние (нижние) результаты, выдаваемые Bing,так или иначе релевантны (нерелевантны) исходному запросу,несмотря на то что они могут быть неверно упорядочены.При проведении эксперимента было не столь важно получитьнаилучшее возможное множество ответов. Основное внимание былососредоточено на оценке улучшения релевантности, даваемого за счетиспользованиярасширенныхдеревьев.Детальноеописаниеэксперимента приведено ниже.3.5 Оценка вычислительной сложностиЧтобы оценить сложность построения расширенных деревьев,рассмотрим усреднённый случай: 5 предложений в каждом абзаце и15 слов в каждом предложении.

Мы в среднем имеем 10 связей междупредложениями,которыедаютнамверхнююграницув2089расширенных деревьев для двух предложений и 60 для трех. Такимобразом, нам необходимо применить обучение для 100 деревьеввместо исходных 5. То есть применение расширенных деревьев даетувеличение входных данных в 20 раз.Однако большинство маленьких поддеревьев повторяют другдруга и будут сокращены при снижении размерности. Также стоитотметить,чтовпромышленныхпоисковыхсистемах,гделингвистические группы хранятся в инвертированном индексе,операциявычисленияфункцииядранаподдеревьяхможетвыполняться за фиксированное время, вне зависимости от размераиндекса [84].

В случае реализации этой операции с помощьютехнологии map-reduce, например, с использованием программногоинструментаCascading[85],временнаясложностьстановитсяпостоянной и не зависит от числа деревьев [70].3.6 ЭкспериментыКак отмечалось выше, для того чтобы оценить, позволяет лииспользование дополнительной семантической информации улучшитьклассический подход к структурному обучению на деревьях, мыпровели сравнение двух вариантов обучения:1. На стандартных деревьях разбора2. На расширенных деревьев разбора.Мы поставили задачу подобрать или подготовить набор данных,который удовлетворял бы нескольким требованиям.

Во-первых,представлял бы собой естественным образом разбитое на несколькоклассов множество коротких текстов, имеющих более-менее четковыраженную лингвистическую структуру. Во-вторых, содержал быдостаточное количество реальных описаний каких-либо объектов,имеющих практическую ценность. К сожалению, найти готовый90набор, обладающий обоими этими свойствами или хотя бы толькопервым из них, не удалось.

В связи с этим мы решили использоватьопыт, накопленный в работах по исследованию и улучшению поиска[33], и использовать в качестве выборки для обучения и тестированиявыдаваемые промышленной поисковой системой результаты (первыеN) предварительно подобранных поисковых запросов.

В качествеклассов наиболее естественным было выбрать классы «релевантныисходному запросу» и «нерелеватны исходному запросу». В этойконцепции каждая поисковая выдача соответствует одной выборке.Одинаковая природа всех выборок позволяет усреднить полученныепоказатели точности и полноты по всем экспериментам. Такимобразом, повышение доверия к результатам в нашем случаедостигается за счет увеличения числа экспериментов, а не за счетувеличения размера исходной выборки.Подготовка поисковых запросов происходила в несколькоэтапов:1. Отбор названий и коротких (несколько слов) описания продуктов.2. Поиск расширенных обзоров и мнений о продуктах на основесформированных описаний.3. Извлечение из полученных текстов максимальных по вложению иименных и глагольных групп. Этот этап необходим, посколькуоригинальные тексты дают слишком специфические запросы,приводящие к появлению малого числа дублирующих друг другарезультатов.Аналогичные шаги были сделаны для подготовки запросов набазе данных с ресурса Yahoo Answers.

В итоге были выбраны порядка100 запросов для каждой из этих двух областей.91Для классификации результатов поисковой выдачи по каждомуиз запросов мы использовали следующую схему. Сначала берутсяпервые 100 (или все, если результатов было меньше) результатов.Далее из этого множества в качестве обучающей выборки выделяютсяпервыеипоследние20%,которыерассматриваютсякак,соответственно, положительные и отрицательные примеры.

Дляпроведения классификации из остальной части множества случайнымобразом выбираются K результатов, K вычисляется исходя изсоотношения 1 к 4 между тестовой и обучающей выборкой (K = 10,если результатов ровно 100).В основе такого подхода лежит несколько идей. Во-первых, мыпредполагаем,чтопервыерезультаты(этоподтверждаетсяпроведенными исследованиями в области поиска), выдаваемыепоисковым движком, так или иначе являются релевантными запросу.Они, разумеется, могут быть неправильно упорядочены, поэтому внашей схеме порядок не играет роли.

Тот факт, что эти примеры неявляются«золотымнекорректными,стандартом»иявляетсяскореетакжемогутбытьчастичнопреимуществом,чемнедостатком, поскольку на реальных данных редко удается подобратьидеальную обучающую выборку. Кроме того, такой подход позволяетдополнительноавтоматизироватьпроведениеэкспериментов,поскольку размечать приходится только тестовую выборку, котораявсегда меньше обучающей.Использование в качестве отрицательных примеров «последнихизпервых»являетсявынужденноймеройлишьотчасти.Отрицательные примеры в данном случае, как и положительные,содержат ключевые слова (возможно, не все) из исходного запроса.Однако отличие между ними состоит в том, что в положительных92примерах встречаются фразы из исходного запроса, образующиесмысловые единицы, и обучение на деревьях как раз призваноуловить это отличие.

А использование расширенных деревьевпомогает выделить случаи, в которых исходные фразы распределенымежду несколькими предложениями в тексте.Также необходимо отметить, что для каждой поисковой выдачипроизводилось фактически два независимых эксперимента. В одномслучае в качестве исходных данных рассматривались так называемыесниппеты (snippets или passages) – короткие фрагменты, обычноотображаемые поисковым движком непосредственно на страницепоиска и представляющие собой объединение нескольких наиболеерелевантных отрывков текста.

В рамках сниппета мы делали изкаждого такого отрывка отдельное предложение и объединяли их водин абзац. Во втором случае на базе сниппета и оригинальноготекстаснайденнойпоисковикомстраницыавтоматическиформировалась краткая выдержка (summary), содержащая наиболееблизкие к сниппету предложения со страницы.Обучение и классификация осуществлялись в автоматическомрежимесиспользованиепрограммногосредстваSVMLight(http://disi.unitn.it/moschitti/Tree-Kernel.htm [90]). Параметры былирекомендованыавторомрасширеннымидеревьямиПО.Дляработыиспользовалосьсобычнымипредставлениеи«лесдеревьев» (packed forest).

Как уже отмечалось выше, ядро в этомслучае вычисляется как нормированная сумма всех функций ядер длякаждой пары деревьев леса. Оценка точности и полноты (отнесениерезультатов к релевантным/нерелевантным) производилась вручную.93Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.Обучение на текстах со страницЯдра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность0,56790,5868Полнота0,75160,8458F-мера0,64850,6752Таблица 3.2.

Результаты для запросов, связанных с мнением о продуктах.Обучение на поисковых сниппетахЯдра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность0,56250,6319Полнота0,78400,8313F-мера0,61690,6695Таблица 3.3. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на текстах со страницЯдра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность0,51670,50830,5437Полнота0,73610,79170,8333F-мера0,60080,54580,6278Таблица 3.4. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers.

Обучение на поисковых сниппетахЯдра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность0,59500,62640,6794Полнота0,73290,74920,7900F-мера0,62490,64290,7067Результаты экспериментов, усредненные по всем поисковымзапросам, показывают ощутимое улучшение, достигаемое за счетиспользования расширенных деревьев. На примере Yahoo Answersвидно, что добавление только кореферентных связей дает небольшойприрост, тогда как использование и кореферентных связей, и94риторических структур позволяет добиться более существеннойприбавки.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.