Диссертация (1137218), страница 13
Текст из файла (страница 13)
Тестовая выборка формируется из оставшегося множествапутем случайного выбора. Для каждого результата мы используем его«сниппет»,извлеченныйатакжесосоответствующийстраницы.Этотемуфрагментэксперименттекста,базируетсянапредположении, что верхние (нижние) результаты, выдаваемые Bing,так или иначе релевантны (нерелевантны) исходному запросу,несмотря на то что они могут быть неверно упорядочены.При проведении данного эксперимента было не столь важнополучить наилучшее возможное множество ответов. Основноевнимание было сосредоточено на оценке улучшения релевантности,достигаемого за счет использования расширенных деревьев.Мы поставили задачу подобрать или подготовить набор данных,который удовлетворял бы нескольким требованиям. Во-первых,представлял бы собой естественным образом разбитое на несколькоклассов множество коротких текстов, имеющих более-менее четковыраженную лингвистическую структуру.
Во-вторых, содержал быдостаточное количество реальных описаний каких-либо объектов,имеющих практическую ценность. К сожалению, найти готовыйнабор, обладающий обоими этими свойствами или хотя бы толькопервым из них, не удалось. В связи с этим мы решили использоватьопыт, накопленный в работах по исследованию и улучшению поиска[43], и использовать в качестве выборки для обучения и тестированиявыдаваемые промышленной поисковой системой результаты (первые90N) предварительно подобранных поисковых запросов.
В качествеклассов наиболее естественным было выбрать классы «релевантныисходному запросу» и «нерелеватны исходному запросу». В этойконцепции каждая поисковая выдача соответствует одной выборке.Одинаковая природа всех выборок позволяет усреднить полученныепоказатели точности и полноты по всем экспериментам. Такимобразом, повышение доверия к результатам в нашем случаедостигается за счет увеличения числа экспериментов, а не за счетувеличения размера исходной выборки.Подготовка поисковых запросов происходила в несколькоэтапов:1. Отбор названий и коротких (несколько слов) описания продуктов.2. Поиск расширенных обзоров и мнений о продуктах на основесформированных описаний.3.
Извлечение из полученных текстов максимальных по вложению иименных и глагольных групп. Этот этап необходим, посколькуоригинальные тексты дают слишком специфические запросы,приводящие к появлению малого числа дублирующих друг другарезультатов.Аналогичные шаги были сделаны для подготовки запросов набазе данных с ресурса Yahoo Answers. В итоге были выбраны порядка100 запросов для каждой из этих двух областей.Для классификации результатов поисковой выдачи по каждомуиз запросов мы использовали следующую схему. Сначала берутсяпервые 100 (или все, если результатов было меньше) результатов.Далее из этого множества в качестве обучающей выборки выделяютсяпервыеипоследние20%,которыерассматриваютсякак,91соответственно, положительные и отрицательные примеры.
Дляпроведения классификации из остальной части множества случайнымобразом выбираются K результатов, K вычисляется исходя изсоотношения 1 к 4 между тестовой и обучающей выборкой (K = 10,если результатов ровно 100).В основе такого подхода лежит несколько идей. Во-первых, мыпредполагаем,чтопервыерезультаты(этоподтверждаетсяпроведенными исследованиями в области поиска), выдаваемыепоисковым движком, так или иначе являются релевантными запросу.Они, разумеется, могут быть неправильно упорядочены, поэтому внашей схеме порядок не играет роли. Тот факт, что эти примеры неявляются«золотымнекорректными,стандартом»иявляетсяскореетакжемогутбытьчастичнопреимуществом,чемнедостатком, поскольку на реальных данных редко удается подобратьидеальную обучающую выборку.
Кроме того, такой подход позволяетдополнительноавтоматизироватьпроведениеэкспериментов,поскольку размечать приходится только тестовую выборку, котораявсегда меньше обучающей.Использование в качестве отрицательных примеров «последнихизпервых»являетсявынужденноймеройлишьотчасти.Отрицательные примеры в данном случае, как и положительные,содержат ключевые слова (возможно, не все) из исходного запроса.Однако отличие между ними состоит в том, что в положительныхпримерах встречаются фразы из исходного запроса, образующиесмысловые единицы, и обучение на деревьях как раз призваноуловить это отличие.
А использование расширенных деревьевпомогает выделить случаи, в которых исходные фразы распределенымежду несколькими предложениями в тексте.92Также необходимо отметить, что для каждой поисковой выдачипроизводилось фактически два независимых эксперимента. В одномслучае в качестве исходных данных рассматривались так называемыесниппеты (snippets или passages) – короткие фрагменты, обычноотображаемые поисковым движком непосредственно на страницепоиска и представляющие собой объединение нескольких наиболеерелевантных отрывков текста. В рамках сниппета мы делали изкаждого такого отрывка отдельное предложение и объединяли их водин абзац.
Во втором случае на базе сниппета и оригинальноготекстаснайденнойпоисковикомстраницыавтоматическиформировалась краткая выдержка (summary), содержащая наиболееблизкие к сниппету предложения со страницы.Обучение и классификация осуществлялись в автоматическомрежимесиспользованиепрограммногосредстваSVMLight(http://disi.unitn.it/moschitti/Tree-Kernel.htm [114]). Параметры былирекомендованыавторомрасширеннымидеревьямиПО.Дляработыиспользовалосьсобычнымипредставлениеи«лесдеревьев» (packed forest). Как уже отмечалось выше, ядро в этомслучае вычисляется как нормированная сумма всех функций ядер длякаждой пары деревьев леса. Оценка точности и полноты (отнесениерезультатов к релевантным/нерелевантным) производилась вручную.Таблица 3.1.
Результаты для запросов, связанных с мнением о продуктах.Обучение на текстах со страниц,%Ядра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность56,858,7Полнота75,284,6F-мера64,967,593Таблица 3.2. Результаты для запросов, связанных с мнением о продуктах.Обучение на поисковых сниппетах,%Ядра на обычных деревьяхЯдра на расширенных деревьяхПродуктыТочность56,363,2Полнота78,483,1F-мера61,767Таблица 3.3.
Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на текстах со страниц, %Ядра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность51,750,854,4Полнота73,679,283,3F-мера60,154,662,8Таблица 3.4. Результаты для запросов, сформированных на базе вопросовиз Yahoo Answers. Обучение на поисковых сниппетах,%Ядра на обычныхРасширенные деревьяРасширенные деревьяYahooдеревьях(только кореферентныеAnswersсвязи)Точность59,562,667,9Полнота73,374,979F-мера62,564,370,7Результаты экспериментов, усредненные по всем поисковымзапросам, показывают ощутимое улучшение, достигаемое за счетиспользования расширенных деревьев. На примере Yahoo Answersвидно, что добавление только кореферентных связей дает небольшойприрост, тогда как использование и кореферентных связей, ириторических структур позволяет добиться более существеннойприбавки.
Более существенный прирост полноты по сравнению сточностьюобъясняетсятем,чтоиспользованиедискурсивнойинформации позволяет корректно классифицировать как релевантные94тексты, в которых исходные фразы распределены между несколькимипредложениям.Исходные и преобразованные запросы, тестовая выборка, атакже подробные результаты классификации доступны на ресурсахиhttp://code.google.com/p/relevance-based-on-parse-treeshttps://github.com/bgalitsky/relevance-based-on-parse-trees.3.5.2 Классификация технических документовЕщё один эксперимент, в котором проверялся предлагаемыйметод – классификация технических документов [48]. В этом случаерассматриваются документы, относящиеся к двум классам:1.
Action-plan (описание оригинальной разработки) - документ,который содержит четкое и хорошо структурированное описаниетого, как построить конкретную систему в какой-либо области.2. Meta-document (мета-описание) – документ, объясняющий, какписать документы, относящиеся к первому классу, например,инструкция, учебник, технический стандарт и т.д.Данная задача важна с практической точки зрения.
«Метадокументы», как правило, содержат общедоступную информацию имогут распространяться свободно. Описание же оригинальныхразработокявляетсясобственностьюкомпанийинеможетпередаваться и копироваться без их разрешения.Очевидно, что технические документы, относящиеся к однойобласти, будут содержать примерно один и тот же набор ключевыхслов и словосочетаний. Использование синтаксической информациитоже не дает полной картины, поскольку такого рода тексты обычнонаписаны стандартизованным языком с использованием короткихсвязанных друг с другом предложений. В то же время, разумеется,95разделениеклассовнельзясчитатьаналитическойзадачей.Разумеется, описания разработок могут содержать фрагменты метаописаний (например, как отсылка к стандарту).
И наоборот – в метадокументы могут быть включены фрагменты описаний конкретныхразработок (в качестве примеров). В связи с этим применениестатистического метода обучения, использующего лингвистическуюинформацию, представляется вполне обоснованным.Для класса «action-plan» мы сформировали набор данных из 940оригинальных документов. Для второго класса мы также подобралинабор документов с мета-описаниями на близкие инженерные темы.Эти мета-документы содержали те же ключевые слова, что иоригинальные документы.
Затем данные были разбиты на 3 группыдля проведения обучения и тестирования по методу кросс-валидации[101].Таблица 3.5. Результаты классификации технических документов.Метод«Ближайшие соседи» (на основе TF*IDF)Наивный БайесовскийЯдра на синтаксических деревьяхЯдра на расширенных деревьях (толькоанафора)Ядра на расширенных деревьях (толькоRST)Ядра на расширенных деревьях (анафора+RST)ВкачествеиспользовалсясинтаксическихТочность,%53.955.371.4Полнота,%6259.776.9F-мера,%57.67+-0.6257.42+-0.8474.05+-0.5577.881.479.56+-0.7080.180.580+-1.0383.383.683.45+-0.78альтернативныхметод, основанныйдеревьях,аметодовдлясравненияна использованиитакженесколькоядернастандартныхклассификаторов. В их число вошли метод ближайших соседей инаивный байесовский подход [100,102].