Диссертация (1137241), страница 13
Текст из файла (страница 13)
Кореферентные связи из Stanford NLP [99].2. Риторические структуры.3. Коммуникативные действия.3.4 Оценка улучшения качества классификацииДля того чтобы убедиться в том, что использование множестварасширенных деревьев дает выигрыш по сравнению с использованиеммножества обычных деревьев для абзаца, мы провели эксперимент поопределению релевантности поиска. Мы применили один и тот же типядра для обучения на абзацах, формируя множество деревьевследующими способами:1. Множество деревьев для предложений абзаца.2. Все расширенные деревья для предложений абзаца.Затем мы сравниваем результаты классификации, полученные врезультате применения обучающего алгоритма, для выбранныхвариантов.
Мы выбрали поиск, поскольку он позволяет получитьдоступ к неограниченному количеству коротких текстов. В данномслучае для решения задачи релевантности мы применили обучающиеалгоритмы. Во всех экспериментах использовался Bing API.Поскольку стандартного набора данных для сложных вопросов,состоящих из нескольких предложений, до сих пор не существует, мысоставили свой набор для мнений и отзывов о товарах. Задача88нахождения ответа на вопрос в данном случае формулируется какнахождение информации в сети, релевантной записи/выражениюмнения пользователя в блоге, на форуме или в социальной сети.
Мысгенерировалимножествозапросов,являющихсятекстовымиабзацами, и запустили поисковый механизм Bing API, чтобы найтипотенциальные ответы и составить обучающую выборку.Задача обучения формулируется как классификация множествапоисковыхрезультатовподвумклассам:релевантныеинерелевантные. Соответствующая обучающая выборка формируетсякак множество ответов с высоким рейтингом (положительныепримеры) и множество ответов с низким рейтингом (отрицательныепримеры).
Тестовая выборка формируется из оставшегося множествапутем случайного выбора. Для каждого результата мы используем его«сниппет»,аизвлеченныйтакжесосоответствующийстраницы.Этотемуфрагментэксперименттекста,базируетсянапредположении, что верхние (нижние) результаты, выдаваемые Bing,так или иначе релевантны (нерелевантны) исходному запросу,несмотря на то что они могут быть неверно упорядочены.При проведении эксперимента было не столь важно получитьнаилучшее возможное множество ответов. Основное внимание былососредоточено на оценке улучшения релевантности, даваемого за счетиспользованиярасширенныхдеревьев.Детальноеописаниеэксперимента приведено ниже.3.5 Оценка вычислительной сложностиЧтобы оценить сложность построения расширенных деревьев,рассмотрим усреднённый случай: 5 предложений в каждом абзаце и15 слов в каждом предложении.
Мы в среднем имеем 10 связей междупредложениями,которыедаютнамверхнююграницув2089расширенных деревьев для двух предложений и 60 для трех. Такимобразом, нам необходимо применить обучение для 100 деревьеввместо исходных 5. То есть применение расширенных деревьев даетувеличение входных данных в 20 раз.Однако большинство маленьких поддеревьев повторяют другдруга и будут сокращены при снижении размерности. Также стоитотметить,чтовпромышленныхпоисковыхсистемах,гделингвистические группы хранятся в инвертированном индексе,операциявычисленияфункцииядранаподдеревьяхможетвыполняться за фиксированное время, вне зависимости от размераиндекса [84].
В случае реализации этой операции с помощьютехнологии map-reduce, например, с использованием программногоинструментаCascading[85],временнаясложностьстановитсяпостоянной и не зависит от числа деревьев [70].3.6 ЭкспериментыКак отмечалось выше, для того чтобы оценить, позволяет лииспользование дополнительной семантической информации улучшитьклассический подход к структурному обучению на деревьях, мыпровели сравнение двух вариантов обучения:1. На стандартных деревьях разбора2. На расширенных деревьев разбора.Мы поставили задачу подобрать или подготовить набор данных,который удовлетворял бы нескольким требованиям.
Во-первых,представлял бы собой естественным образом разбитое на несколькоклассов множество коротких текстов, имеющих более-менее четковыраженную лингвистическую структуру. Во-вторых, содержал быдостаточное количество реальных описаний каких-либо объектов,имеющих практическую ценность. К сожалению, найти готовый90набор, обладающий обоими этими свойствами или хотя бы толькопервым из них, не удалось.
В связи с этим мы решили использоватьопыт, накопленный в работах по исследованию и улучшению поиска[33], и использовать в качестве выборки для обучения и тестированиявыдаваемые промышленной поисковой системой результаты (первыеN) предварительно подобранных поисковых запросов.
В качествеклассов наиболее естественным было выбрать классы «релевантныисходному запросу» и «нерелеватны исходному запросу». В этойконцепции каждая поисковая выдача соответствует одной выборке.Одинаковая природа всех выборок позволяет усреднить полученныепоказатели точности и полноты по всем экспериментам. Такимобразом, повышение доверия к результатам в нашем случаедостигается за счет увеличения числа экспериментов, а не за счетувеличения размера исходной выборки.Подготовка поисковых запросов происходила в несколькоэтапов:1. Отбор названий и коротких (несколько слов) описания продуктов.2. Поиск расширенных обзоров и мнений о продуктах на основесформированных описаний.3. Извлечение из полученных текстов максимальных по вложению иименных и глагольных групп. Этот этап необходим, посколькуоригинальные тексты дают слишком специфические запросы,приводящие к появлению малого числа дублирующих друг другарезультатов.Аналогичные шаги были сделаны для подготовки запросов набазе данных с ресурса Yahoo Answers.
В итоге были выбраны порядка100 запросов для каждой из этих двух областей.91Для классификации результатов поисковой выдачи по каждомуиз запросов мы использовали следующую схему. Сначала берутсяпервые 100 (или все, если результатов было меньше) результатов.Далее из этого множества в качестве обучающей выборки выделяютсяпервыеипоследние20%,которыерассматриваютсякак,соответственно, положительные и отрицательные примеры.
Дляпроведения классификации из остальной части множества случайнымобразом выбираются K результатов, K вычисляется исходя изсоотношения 1 к 4 между тестовой и обучающей выборкой (K = 10,если результатов ровно 100).В основе такого подхода лежит несколько идей. Во-первых, мыпредполагаем,чтопервыерезультаты(этоподтверждаетсяпроведенными исследованиями в области поиска), выдаваемыепоисковым движком, так или иначе являются релевантными запросу.Они, разумеется, могут быть неправильно упорядочены, поэтому внашей схеме порядок не играет роли.
Тот факт, что эти примеры неявляются«золотымнекорректными,стандартом»иявляетсяскореетакжемогутбытьчастичнопреимуществом,чемнедостатком, поскольку на реальных данных редко удается подобратьидеальную обучающую выборку. Кроме того, такой подход позволяетдополнительноавтоматизироватьпроведениеэкспериментов,поскольку размечать приходится только тестовую выборку, котораявсегда меньше обучающей.Использование в качестве отрицательных примеров «последнихизпервых»являетсявынужденноймеройлишьотчасти.Отрицательные примеры в данном случае, как и положительные,содержат ключевые слова (возможно, не все) из исходного запроса.Однако отличие между ними состоит в том, что в положительных92примерах встречаются фразы из исходного запроса, образующиесмысловые единицы, и обучение на деревьях как раз призваноуловить это отличие.
А использование расширенных деревьевпомогает выделить случаи, в которых исходные фразы распределенымежду несколькими предложениями в тексте.Также необходимо отметить, что для каждой поисковой выдачипроизводилось фактически два независимых эксперимента. В одномслучае в качестве исходных данных рассматривались так называемыесниппеты (snippets или passages) – короткие фрагменты, обычноотображаемые поисковым движком непосредственно на страницепоиска и представляющие собой объединение нескольких наиболеерелевантных отрывков текста.
В рамках сниппета мы делали изкаждого такого отрывка отдельное предложение и объединяли их водин абзац. Во втором случае на базе сниппета и оригинальноготекстаснайденнойпоисковикомстраницыавтоматическиформировалась краткая выдержка (summary), содержащая наиболееблизкие к сниппету предложения со страницы.Обучение и классификация осуществлялись в автоматическомрежимесиспользованиепрограммногосредстваSVMLight(http://disi.unitn.it/moschitti/Tree-Kernel.htm [90]). Параметры былирекомендованыавторомрасширеннымидеревьямиПО.Дляработыиспользовалосьсобычнымипредставлениеи«лесдеревьев» (packed forest).
Как уже отмечалось выше, ядро в этомслучае вычисляется как нормированная сумма всех функций ядер длякаждой пары деревьев леса. Оценка точности и полноты (отнесениерезультатов к релевантным/нерелевантным) производилась вручную.93Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.Обучение на текстах со страницЯдра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность0,56790,5868Полнота0,75160,8458F-мера0,64850,6752Таблица 3.2.
Результаты для запросов, связанных с мнением о продуктах.Обучение на поисковых сниппетахЯдра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность0,56250,6319Полнота0,78400,8313F-мера0,61690,6695Таблица 3.3. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на текстах со страницЯдра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность0,51670,50830,5437Полнота0,73610,79170,8333F-мера0,60080,54580,6278Таблица 3.4. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers.
Обучение на поисковых сниппетахЯдра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность0,59500,62640,6794Полнота0,73290,74920,7900F-мера0,62490,64290,7067Результаты экспериментов, усредненные по всем поисковымзапросам, показывают ощутимое улучшение, достигаемое за счетиспользования расширенных деревьев. На примере Yahoo Answersвидно, что добавление только кореферентных связей дает небольшойприрост, тогда как использование и кореферентных связей, и94риторических структур позволяет добиться более существеннойприбавки.