Автореферат (1137240), страница 3

Файл №1137240 Автореферат (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 3 страницаАвтореферат (1137240) страница 32019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Дляформирования рекомендации агенты должны взять части текста, построитьзапрос для поисковой системы, запустить его с помощью API поисковойсистемы и отфильтровать нерелевантные по отношению к решению о покупкерезультаты поиска. Последний шаг имеет решающее значение для разумногофункционирования агента, поскольку низкая релевантность приведет к утратедоверия по отношению к механизму рекомендаций.В экспериментах сначала вычисляется сходство между вопросом ипотенциальными ответами, затем ответы ранжируются по вычисляемому набазе сходства числовому значению.

В случае использования полного описаниязначение вычисляется как размер наибольшего общего подграфа. Для проекцийсначала вычисляется максимальный размер (количество вершин) срединаибольших общих подгрупп для каждого типа групп, а затем эти значениясуммируются. На различных наборах данных новый подход сравнивается снесколькими альтернативами: Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляется набор общихключевых слов / N-грамм и их частот. Попарноесравнениепредложений:применяютсясинтаксическиеобобщения для каждой пары предложений, полученные результатысуммируются.16Релевантность поиска сиспользованием обобщенийдля отдельныхпредложений, %,Релевантность поиска спомощью чащ, построенныхна фрагментах, %,Релевантность поиска спомощью чащ, построенныхна оригинальных абзацах,%,Релевантность поиска сиспользованием обобщениячащ на графах, %1 составноепредложение2 предложения3 предложения4 предложения1 составноепредложение2 предложения3 предложения4 предложения62.369.172.472.973.361.559.960.464.870.566.2666871.972.068.572.672.873.469.274.771.671.466.774.260.662.358.765.866.165.973.170.972.576.970.873.973.572.971.71 составноепредложение2 предложения3 предложения4 предложения54.563.265.368.167.252.349.750.960.95758.362.161.762.063.763.064.663.961.962.758.1564.7568.7570.3369.25Тип запросаСложность запросаРелевантность исходногопоиска в Bing, %,Таблица 2.1.

Оценка релевантности поискаПоискрекомендацийпо товарамПоискрекомендацийпопутешествиямПоискрекомендацийконтента наFacebookСредниепоказателиТаблица демонстрирует, что с ростом сложности запроса увеличивалсяэффект от применения технологии обобщения. Метод с использованиемабзацев превосходит ключевые слова и предложения. Другим важнымрезультатом является незначительная потеря качества при существенномвыигрыше в скорости за счет использования проекций.Помимо собственно улучшения релевантности результатов поиска,существенным аспектом является их интерпретация ‒ одно из важнейшихнаправлений в промышленном информационном поиске.

В работе приводитсяописание применения модели для задачи иерархической концептуальной17кластеризациитекстов,однимизчастныхслучаевкоторойявляетсяпредставление результатов поиска в виде решетки замкнутых множеств(кластеров), а не в виде линейного списка. Структурным описанием каждоготекста является чаща разбора или её проекция.

Решеточная операцияпересечения – это операция сходства чащ разбора. Для построения самойрешетки можно использовать любой стандартный алгоритм, например,AddIntent.Кластеризация в случае использования полного описания выглядитследующим образом:1. Взять множество текстов (поисковую выдачу) T.2. Для каждого результата ti T построить чащу разбора pi  P .3. Используя операцию обобщения чащ разбора в качестве решеточной ,  для всехоперации пересечения  , построить узорную решетку T ,  P,текстов с помощью любого стандартного алгоритма (например, AddIntentили Замыкай-По-Одному).4.

Получить иерархические кластеры – узорные понятия решетки.При использовании приближенного представления последовательностьдействий немного модифицируется:1. Взять множество текстов (поисковую выдачу) T.2. Для каждого результатаti Tпостроить проекцию чащи разбора  pi    P  .3. Используя операцию обобщения проекций в качестве решеточной операции пересечения, построить проекцию узорной решетки T , P , ,  4. Для всех текстов с помощью любого стандартного алгоритма (например,AddIntent или Замыкай-По-Одному).5. Получить иерархические кластеры – проекции узорных понятий решетки.18В третьей главе описывается применение построенной модели для задачиобучения с учителем на текстовых абзацах (для английского языка), основанноена использовании ядерных функций (kernels) в методе опорных векторов(SVM). Производится сравнение с существующей моделью (Moschitti), неиспользующей семантическую информацию о связях между предложениямиабзаца.

Демонстрируется преимущество применения новой модели в задачеклассификации поисковых результатов.Функция ядра (convolution kernel) на деревьях задает пространствопризнаков, состоящее из возможных типов поддеревьев деревьев разбора, иподсчитывает количество общих подструктур в качестве синтаксическойблизости между деревьями. В исследовании применяется подход к построениюядра, базирующегося более чем на одном дереве разбора: ядра для лесадеревьев.

Сравниваются два подхода:1. Существующий подход. Обучение на лесе, сформированном из деревьевразбора для всех предложений абзаца (Москитти);2. Модифицированный подход. Обучение на лесе, сформированном изобычных деревьев разбора, дополненных расширенными деревьями. Каждоерасширенное дерево включает в себя одну семантическую связь («перескок»между деревьями). Такой лес представляет собой альтернативный вариантзадания проекции чащи разбора.Автор формулирует алгоритм построения расширенных деревьев дляабзаца.Итоговыесинтаксическогодеревьяразбора,неоднакоявляютсяформируюткорректнымиадекватноедеревьямипространствопризнаков для ядер на деревьях. В исследовании приводятся результатыэкспериментов, демонстрирующие выигрыш при использовании множестварасширенных деревьев по сравнению с множеством обычных деревьев дляабзаца. Поскольку стандартного набора данных для вопросов, состоящих изнескольких предложений, до сих пор не существует, автор составил свой набор19для мнений и отзывов о товарах.

Задача нахождения ответа на вопросформулируетсякакнахождениеинформациивсети,релевантнойзаписи/выражению мнения пользователя в блоге, на форуме и т.д.Задачаобученияпредставляетсобойклассификациюмножествапоисковых результатов по двум классам: релевантные и нерелевантные.Соответствующая обучающая выборка формируется как множество ответов свысоким рейтингом (положительные примеры) и множество ответов с низкимрейтингом (отрицательные примеры).

Тестовая выборка формируется изоставшегося множества путем случайного выбора. Для каждого результатаиспользуется его «сниппет» (выдаваемый поисковой системой фрагмент), атакже соответствующий ему фрагмент текста, извлеченный со страницы (дванезависимых эксперимента). Этот эксперимент базируется на предположении,что верхние (нижние) результаты, выдаваемые Bing, так или иначе релевантны(нерелевантны) исходному запросу, несмотря на то что они могут быть неверноупорядочены.Таблица 3.1. Результаты для запросов, связанных с мнением о продуктах.

Обучениена текстах со страницИсходный методМодифицированный методПродуктыТочность0,56790,5868Полнота0,75160,8458F-мера0,64850,6752Таблица 3.2. Результаты для запросов, связанных с мнением о продуктах. Обучениена поисковых сниппетахИсходный методМодифицированный методПродуктыТочность0,56250,6319Полнота0,78400,8313F-мера0,61690,669520Таблица 3.3. Результаты для запросов, сформированных на базе вопросов из YahooAnswers. Обучение на текстах со страницИсходный методМодифицированныйМодифицированный методYahooметод (толькоAnswersкореферентные связи)Точность0,51670,50830,5437Полнота0,73610,79170,8333F-мера0,60080,54580,6278Таблица 3.4.

Результаты для запросов, сформированных на базе вопросов из YahooAnswers. Обучение на поисковых сниппетахИсходный методМодифицированныйМодифицированный методYahooметод (толькоAnswersкореферентные связи)Точность0,59500,62640,6794Полнота0,73290,74920,7900F-мера0,62490,64290,7067Эксперименты демонстрируют, что добавление новых признаков безизменениясхемыэкспериментаулучшаеткачествоклассификациисуществующего подхода. Это улучшение колеблется в диапазоне от 2 до 8 %для текстов из нескольких областей, имеющих различную структуру. При этомулучшение и внедрение дополнительных признаков не требуют доработкисамого алгоритма обучения на деревьях.В четвертой главе рассматривается задача выявления тождественныхденотатов для случая формальных описаний, построенных на основепредварительно обработанных текстовых данных.

Предлагается модельтождественных денотатов для формальных описаний и метод, позволяющийустанавливатьсемантическиесвязитипа«тажесущность»междуформальными описаниями, выделяемыми из текста. Метод основан наприменениифильтрациирешетокформальныхпонятий.Производитсясравнение данного метода с альтернативными методами на нескольких наборахданных:сгенерированныхиполученныхизреальногоприложения.Демонстрируется улучшение, достигаемое за счет применения нового метода.21Одним из типов семантических связей, используемых в исследовании длясоединения фрагментов текста, является отношение «та же сущность».Обнаружение такого рода связей является отдельной задачей, известной такжеподназваниемвыявлениятождественныхденотатов.Вработерассматривается частный случай проблемы, когда имеются формальныеописания денотатов, построенные с помощью предварительной обработкитекстовых данных.Одной из наиболее универсальных и популярных моделей представленияструктурированныхданныхявляютсяприкладныеонтологии.Приавтоматической или полуавтоматической генерация онтологии из текстовыхданных на основе заранее подготовленного набора правил возникает проблемапоявления нескольких описаний одних и тех же объектов реального мира(денотатов).

В работе приводится и поэтапно описывается алгоритм поискатождественных денотатов в прикладной онтологии. На вход алгоритмпринимает прикладную онтологию. На выходе алгоритм выдает спискиобъектов, которые были идентифицированы им как тождественные.Алгоритм состоит из двух этапов (второй этап может рассматриваться каксамостоятельный алгоритм поиска тождественных денотатов в формальномконтексте):1. Преобразование онтологии в формальный контекст.1.1Преобразование онтологии в многозначный контекст;1.2Преобразование (шкалирование) мнозначного контекста в формальныйконтекст;2. Поиск тождественных денотатов в формальном контексте.2.1Построение множества формальных понятий с помощью алгоритмаAddIntent.222.2Фильтрация множества формальных понятий.2.3Формирование списков тождественных объектов в автоматическом илиполуавтоматическом (с участием эксперта) режиме.Висследованиипредлагаетсячисловойкритерий(индекс)дляфильтрации формальных понятий.

Характеристики

Тип файла

PDF-файл

Размер

543,34 Kb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.