Автореферат (1137240), страница 3
Текст из файла (страница 3)
Дляформирования рекомендации агенты должны взять части текста, построитьзапрос для поисковой системы, запустить его с помощью API поисковойсистемы и отфильтровать нерелевантные по отношению к решению о покупкерезультаты поиска. Последний шаг имеет решающее значение для разумногофункционирования агента, поскольку низкая релевантность приведет к утратедоверия по отношению к механизму рекомендаций.В экспериментах сначала вычисляется сходство между вопросом ипотенциальными ответами, затем ответы ранжируются по вычисляемому набазе сходства числовому значению.
В случае использования полного описаниязначение вычисляется как размер наибольшего общего подграфа. Для проекцийсначала вычисляется максимальный размер (количество вершин) срединаибольших общих подгрупп для каждого типа групп, а затем эти значениясуммируются. На различных наборах данных новый подход сравнивается снесколькими альтернативами: Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляется набор общихключевых слов / N-грамм и их частот. Попарноесравнениепредложений:применяютсясинтаксическиеобобщения для каждой пары предложений, полученные результатысуммируются.16Релевантность поиска сиспользованием обобщенийдля отдельныхпредложений, %,Релевантность поиска спомощью чащ, построенныхна фрагментах, %,Релевантность поиска спомощью чащ, построенныхна оригинальных абзацах,%,Релевантность поиска сиспользованием обобщениячащ на графах, %1 составноепредложение2 предложения3 предложения4 предложения1 составноепредложение2 предложения3 предложения4 предложения62.369.172.472.973.361.559.960.464.870.566.2666871.972.068.572.672.873.469.274.771.671.466.774.260.662.358.765.866.165.973.170.972.576.970.873.973.572.971.71 составноепредложение2 предложения3 предложения4 предложения54.563.265.368.167.252.349.750.960.95758.362.161.762.063.763.064.663.961.962.758.1564.7568.7570.3369.25Тип запросаСложность запросаРелевантность исходногопоиска в Bing, %,Таблица 2.1.
Оценка релевантности поискаПоискрекомендацийпо товарамПоискрекомендацийпопутешествиямПоискрекомендацийконтента наFacebookСредниепоказателиТаблица демонстрирует, что с ростом сложности запроса увеличивалсяэффект от применения технологии обобщения. Метод с использованиемабзацев превосходит ключевые слова и предложения. Другим важнымрезультатом является незначительная потеря качества при существенномвыигрыше в скорости за счет использования проекций.Помимо собственно улучшения релевантности результатов поиска,существенным аспектом является их интерпретация ‒ одно из важнейшихнаправлений в промышленном информационном поиске.
В работе приводитсяописание применения модели для задачи иерархической концептуальной17кластеризациитекстов,однимизчастныхслучаевкоторойявляетсяпредставление результатов поиска в виде решетки замкнутых множеств(кластеров), а не в виде линейного списка. Структурным описанием каждоготекста является чаща разбора или её проекция.
Решеточная операцияпересечения – это операция сходства чащ разбора. Для построения самойрешетки можно использовать любой стандартный алгоритм, например,AddIntent.Кластеризация в случае использования полного описания выглядитследующим образом:1. Взять множество текстов (поисковую выдачу) T.2. Для каждого результата ti T построить чащу разбора pi P .3. Используя операцию обобщения чащ разбора в качестве решеточной , для всехоперации пересечения , построить узорную решетку T , P,текстов с помощью любого стандартного алгоритма (например, AddIntentили Замыкай-По-Одному).4.
Получить иерархические кластеры – узорные понятия решетки.При использовании приближенного представления последовательностьдействий немного модифицируется:1. Взять множество текстов (поисковую выдачу) T.2. Для каждого результатаti Tпостроить проекцию чащи разбора pi P .3. Используя операцию обобщения проекций в качестве решеточной операции пересечения, построить проекцию узорной решетки T , P , , 4. Для всех текстов с помощью любого стандартного алгоритма (например,AddIntent или Замыкай-По-Одному).5. Получить иерархические кластеры – проекции узорных понятий решетки.18В третьей главе описывается применение построенной модели для задачиобучения с учителем на текстовых абзацах (для английского языка), основанноена использовании ядерных функций (kernels) в методе опорных векторов(SVM). Производится сравнение с существующей моделью (Moschitti), неиспользующей семантическую информацию о связях между предложениямиабзаца.
Демонстрируется преимущество применения новой модели в задачеклассификации поисковых результатов.Функция ядра (convolution kernel) на деревьях задает пространствопризнаков, состоящее из возможных типов поддеревьев деревьев разбора, иподсчитывает количество общих подструктур в качестве синтаксическойблизости между деревьями. В исследовании применяется подход к построениюядра, базирующегося более чем на одном дереве разбора: ядра для лесадеревьев.
Сравниваются два подхода:1. Существующий подход. Обучение на лесе, сформированном из деревьевразбора для всех предложений абзаца (Москитти);2. Модифицированный подход. Обучение на лесе, сформированном изобычных деревьев разбора, дополненных расширенными деревьями. Каждоерасширенное дерево включает в себя одну семантическую связь («перескок»между деревьями). Такой лес представляет собой альтернативный вариантзадания проекции чащи разбора.Автор формулирует алгоритм построения расширенных деревьев дляабзаца.Итоговыесинтаксическогодеревьяразбора,неоднакоявляютсяформируюткорректнымиадекватноедеревьямипространствопризнаков для ядер на деревьях. В исследовании приводятся результатыэкспериментов, демонстрирующие выигрыш при использовании множестварасширенных деревьев по сравнению с множеством обычных деревьев дляабзаца. Поскольку стандартного набора данных для вопросов, состоящих изнескольких предложений, до сих пор не существует, автор составил свой набор19для мнений и отзывов о товарах.
Задача нахождения ответа на вопросформулируетсякакнахождениеинформациивсети,релевантнойзаписи/выражению мнения пользователя в блоге, на форуме и т.д.Задачаобученияпредставляетсобойклассификациюмножествапоисковых результатов по двум классам: релевантные и нерелевантные.Соответствующая обучающая выборка формируется как множество ответов свысоким рейтингом (положительные примеры) и множество ответов с низкимрейтингом (отрицательные примеры).
Тестовая выборка формируется изоставшегося множества путем случайного выбора. Для каждого результатаиспользуется его «сниппет» (выдаваемый поисковой системой фрагмент), атакже соответствующий ему фрагмент текста, извлеченный со страницы (дванезависимых эксперимента). Этот эксперимент базируется на предположении,что верхние (нижние) результаты, выдаваемые Bing, так или иначе релевантны(нерелевантны) исходному запросу, несмотря на то что они могут быть неверноупорядочены.Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.
Обучениена текстах со страницИсходный методМодифицированный методПродуктыТочность0,56790,5868Полнота0,75160,8458F-мера0,64850,6752Таблица 3.2. Результаты для запросов, связанных с мнением о продуктах. Обучениена поисковых сниппетахИсходный методМодифицированный методПродуктыТочность0,56250,6319Полнота0,78400,8313F-мера0,61690,669520Таблица 3.3. Результаты для запросов, сформированных на базе вопросов из YahooAnswers. Обучение на текстах со страницИсходный методМодифицированныйМодифицированный методYahooметод (толькоAnswersкореферентные связи)Точность0,51670,50830,5437Полнота0,73610,79170,8333F-мера0,60080,54580,6278Таблица 3.4.
Результаты для запросов, сформированных на базе вопросов из YahooAnswers. Обучение на поисковых сниппетахИсходный методМодифицированныйМодифицированный методYahooметод (толькоAnswersкореферентные связи)Точность0,59500,62640,6794Полнота0,73290,74920,7900F-мера0,62490,64290,7067Эксперименты демонстрируют, что добавление новых признаков безизменениясхемыэкспериментаулучшаеткачествоклассификациисуществующего подхода. Это улучшение колеблется в диапазоне от 2 до 8 %для текстов из нескольких областей, имеющих различную структуру. При этомулучшение и внедрение дополнительных признаков не требуют доработкисамого алгоритма обучения на деревьях.В четвертой главе рассматривается задача выявления тождественныхденотатов для случая формальных описаний, построенных на основепредварительно обработанных текстовых данных.
Предлагается модельтождественных денотатов для формальных описаний и метод, позволяющийустанавливатьсемантическиесвязитипа«тажесущность»междуформальными описаниями, выделяемыми из текста. Метод основан наприменениифильтрациирешетокформальныхпонятий.Производитсясравнение данного метода с альтернативными методами на нескольких наборахданных:сгенерированныхиполученныхизреальногоприложения.Демонстрируется улучшение, достигаемое за счет применения нового метода.21Одним из типов семантических связей, используемых в исследовании длясоединения фрагментов текста, является отношение «та же сущность».Обнаружение такого рода связей является отдельной задачей, известной такжеподназваниемвыявлениятождественныхденотатов.Вработерассматривается частный случай проблемы, когда имеются формальныеописания денотатов, построенные с помощью предварительной обработкитекстовых данных.Одной из наиболее универсальных и популярных моделей представленияструктурированныхданныхявляютсяприкладныеонтологии.Приавтоматической или полуавтоматической генерация онтологии из текстовыхданных на основе заранее подготовленного набора правил возникает проблемапоявления нескольких описаний одних и тех же объектов реального мира(денотатов).
В работе приводится и поэтапно описывается алгоритм поискатождественных денотатов в прикладной онтологии. На вход алгоритмпринимает прикладную онтологию. На выходе алгоритм выдает спискиобъектов, которые были идентифицированы им как тождественные.Алгоритм состоит из двух этапов (второй этап может рассматриваться каксамостоятельный алгоритм поиска тождественных денотатов в формальномконтексте):1. Преобразование онтологии в формальный контекст.1.1Преобразование онтологии в многозначный контекст;1.2Преобразование (шкалирование) мнозначного контекста в формальныйконтекст;2. Поиск тождественных денотатов в формальном контексте.2.1Построение множества формальных понятий с помощью алгоритмаAddIntent.222.2Фильтрация множества формальных понятий.2.3Формирование списков тождественных объектов в автоматическом илиполуавтоматическом (с участием эксперта) режиме.Висследованиипредлагаетсячисловойкритерий(индекс)дляфильтрации формальных понятий.