Диссертация (1137241), страница 14

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 14 страницаДиссертация (1137241) страница 142019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

Более существенный прирост полноты по сравнению сточностью объясняется тем, что использование семантическойинформации позволяет корректно классифицировать как релевантныетексты, в которых исходные фразы распределены между несколькимипредложениям.Исходные и преобразованные запросы, тестовая выборка, атакже подробные результаты классификации доступны на ресурсеhttp://code.google.com/p/relevance-based-on-parse-trees.3.7 ВыводыВданнойсемантическойглавебылоинформациипоказано,позволяеткакиспользованиеулучшитькачествоклассификации коротких текстов.

Мы провели сравнение двухвариантов обучения: Обучения на деревьях разбора для отдельных предложений, Обучения на деревьях разбора для отдельных предложений,дополненных расширенными деревьями разбора ‒ деревьями,полученныминаосновесемантическихсвязеймеждупредложениями абзаца.Было показано, что добавление новых признаков без изменениясхемыэкспериментаулучшаеткачествоклассификации.Этоулучшение колеблется в диапазоне от 2 до 8 % для текстов изнескольких областей, имеющих различную структуру. При этомважно отметить, что это улучшение и внедрение дополнительныхпризнаков не потребовали доработки самого алгоритма обучения надеревьях.95В главе 2 было продемонстрировано, что использованиеразличныхсемантическихсвязеймеждупредложениями(кореферентные связи, риторические структуры, коммуникативныедействия) позволяет добиться улучшения качества поиска в случае,когда ответ содержится в нескольких предложениях.

Оказывается,использование дополнительных связей также позволяет улучшитькачество классификации коротких текстов. При этом сам алгоритмвычисления ядра не модифицируется.Построение расширенных деревьев, рассмотренных выше,подразумевает использование проекций. Множество расширенныхдеревьев абзаца является проекцией чащи разбора. При этомнеобходимо отметить, что данный вид проекции отличается отпроекций, описанных в главе 2, которые применялись для нахождениясходства текстовых абзацев. В главе 2 проекция чащи определяласькак множество всех максимальных по вложению подграфов,являющихся деревьями.

В текущей главе рассматривался упрощенныйвариант данной проекции, подразумевающий в результирующихдеревьях не более одной семантической связи. Использование этойпроекциидопустимо,посколькуононеприводиткпотересемантической информации: все семантические связи чащи попадаютв лес деревьев, используемый при обучении. В то же времяприменениеданнойпроекциипозволяетупроститьалгоритмпостроения расширенных деревьев и снизить вычислительнуюсложность подготовки данных для обучения и классификации.Применение ядер для анализа коротких текстов являетсяальтернативой описанному в главе 2 построению узорной структурына чащах. Ядра позволяют осуществить обучение с учителем, тогда96как построение узорной структуры является ни чем иным какиерархической кластеризацией, то есть обучением без учителя.Стоит отметить, что предложенный подход может быть такжеприменен к проблеме построения запросов и обхода в самих деревьяхразбора.

Эта задача актуальна в таких системах как Tregex [97],работающих на уровне отдельных предложений. В случае расширенияобласти действий таких систем до абзацев текста за счет внедрениярасширенных деревьев полнота систем существенно возрастет, азависимостьоттогокакраспределеныинформациямеждупредложениями, напротив, снизится.Другим интересным продолжением является исследованиекачества ранжирования результатов, получающегося в результатеэкспериментов, с помощью стандартных метрик качества, таких какNDCG. В этом случае можно сравнить ранжирование с помощьюобычных и расширенных ядер с исходным ранжированием Bing, атакже с различными методами, позволяющими переупорядочиватьпоисковую выдачу на основе синтаксической и семантическойструктуры результатов.Также в качестве направления для развития исследованияможноотметитьвнедрениевсуществующийметодядер,вычисляемых на графах специального вида [98].

В этом случае станетвозможным обучение непосредственно на чащах разбора, безиспользования проекций.974. Поиск тождественных денотатов в онтологиях иформальных контекстах4.1 ВведениеОдним из типов семантических связей, использовавшихся впредыдущих главах для соединения фрагментов текста, являетсяотношение «та же сущность». Обнаружение такого рода связейявляетсяотдельной задачей, известной также под названиемвыявления тождественных денотатов [5,6,7,8].

В общем случае этапроблемавесьмасложнаитребуетпостроениясложныхсемантических моделей, а также использования дополнительных баззнаний. Однако в частном случае, когда мы имеем дело сформальнымипредварительнойописаниями,обработкипостроеннымитекстовыхсданных,помощьюоказываетсявозможным предложить достаточно эффективные методы решенияэтой задачи [2, 14, 30].Одной из наиболее универсальных и популярных моделейпредставления структурированных данных являются прикладныеонтологии.

Распространенным способом построения прикладнойонтологии является её автоматическая или полуавтоматическаягенерация из неструктурированных данных (как правило, текстов) наоснове заранее подготовленного набора правил. Однако при такомспособе построения онтологии возникает проблема появлениянескольких описаний, обозначений (денотатов) одних и тех жеобъектов реального мира. Возникновение данной проблемы врассматриваемом приложении связано с тем, что реальные источникиинформации могут существенно дублировать или перекрывать другдруга: например, во многих статьях может описываться одна и та жекомпания, человек, место и т.д.98При этом выявление тождественных денотатов непосредственнона этапе построения или дополнения онтологии (например, путемпопарного сравнения новых объектов с уже существующимиобъектами) является не слишком эффективным сразу по несколькимпричинам.

Во-первых, такой подход существенно увеличиваетнагрузку на эксперта, принимающего окончательное решение, вособенности эта нагрузка возрастает при частом обновлении данных.Во-вторых,вреальноститождественныеобъектыпоступаютнеравномерно, и имеет смысл выявлять их не при каждом обновлениионтологии, а через более продолжительные промежутки времени,определяемые особенностями предметной области.Предлагаемыйподходпозволяетэффективновыявлятьтождественные денотаты в исходных данных, представленных в видеонтологии.Разработанныйметодможетлибоавтоматическиформировать списки тождественных объектов, либо работать вкачестве рекомендательной системы для эксперта, одновременноминимизируя нагрузку на него и предоставляя ему четкие иинтуитивно понятные рекомендации по определению тождественныхописаний объектов.Задача, послужившая толчком к проведению исследования,былапоставленааналитикамикомпанииАвикомп.Основноенаправление ‒ поиск тождественных описаний людей и компаний вонтологиях,строящихсяпутемавтоматическойсемантическойобработки потока новостных текстов.

Изначально задача решаласьметодами попарного сравнения на основе расстояния Хэмминга иразличнымирешениядополнительнымибылоэвристиками,неудовлетворительнымиз-запричемкачествонизкойточности.Применение нового подхода позволило улучшить качество решения.99Прикладные онтологии, описывающие различные предметныеобласти, в особенности, социальные сети, имеют специфическиесвойства, которые учитывались при разработке алгоритма:1. Онтологии содержат достаточно большое количество объектов(десятки тысяч). Многие объекты имеют редкие или дажеуникальные значения признаков, поэтому в онтологии содержитсябольшое количество различных значений признаков.2.

Объекты содержат различное число выявленных признаков исвязей(горизонтальныхРаспределениеэтихотношений)чиселснедругимилинейное,объектами.аимеет«гиперболическую» форму (распределение Ципфа).3. Другой особенностью задачи является "неравносильность" ошибокпервого и второго рода.

Ошибка первого рода (принятие двухописаний одного объекта за разные объекты) приводит к тому, чтообъекты онтологии содержат неполную информацию об объектахреального мира. Ошибка второго рода (объявление двух различныхобъектовтождественными)приводиткболеесерьезнымпоследствиям - введению в онтологию неверной информации обобъекте.4.2 Алгоритм поиска тождественных денотатовНиже описан разработанный алгоритм поиска тождественныхденотатов в прикладной онтологии, который основан на методаханализа формальных понятий.Навходалгоритмпринимаетприкладнуюонтологию.Онтология содержит объекты разных классов, объекты могут бытьсвязаны отношениями, соответствующими их классам. Количество100выявленных признаков и связей объекта может сильно варьироваться.Некоторые объекты описывают один и тот же объект реального мира.На выходе алгоритм выдает списки объектов, которые былиидентифицированы им как тождественные.

Выявление объектов вонтологииосуществляетсянаосновеобъединениязамкнутыхмножеств объектов с помощью методов анализа формальных понятий[16].Алгоритм состоит из двух этапов. Первый этап - преобразованиеонтологии в формальный контекст. Второй этап - построениемножества формальных понятий контекста онтологии и порождениесписковтождественныхобъектов,производимоенаосновеотобранных по специальному критерию формальных понятий.Отметим,чтовторойэтапможетрассматриватьсякаксамостоятельный алгоритм поиска тождественных денотатов вформальном контексте.При этом алгоритм должен обладать высокой точностью, таккак объявление двух различных объектов тождественными считаетсяболее грубой ошибкой, чем не обнаружение денотатов какого-либообъекта.4.2.1 Преобразование онтологии в формальный контекстСначала исходные данные, представленные в виде (экземпляра)онтологии, преобразуются в так называемый многозначный контекст,задаваемый следующим образом:1.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.