Автореферат (1137240), страница 2

Файл №1137240 Автореферат (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 2 страницаАвтореферат (1137240) страница 22019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Ежегодном весеннем симпозиуме ассоциации искусственного интеллекта(2014 AAAI Spring Simposium).98. 14-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2014, Катманду, Непал.9. 52-й международной конференции Ассоциации компьютерной лингвистикиACL-2014, Балтимор, США.Публикация результатов. Основные результаты работы изложены в 12научныхстатьях.9статейопубликованыврецензируемыхтрудахмеждународных конференций, 3 статьи опубликованы в журналах из спискаВАК.Структура диссертации. Диссертация изложена на 160 страницах ивключает в себя введение, 5 глав, заключение и список литературы, состоящийиз 110 пунктов.Содержание работыВовведениираскрываетсяактуальностьтемыдиссертации,формулируются проблемы исследования, предмет исследования, определяетсяцель работы, описываются методы исследования, излагаются основныенаучные результаты, обосновывается теоретическая и практическая значимостьработы, даётся общая характеристика исследования.В первой главе рассматриваются теоретические основы используемых вдальнейшем моделей и методов и описываются особенности моделированиятекстовых данных.

Приводятся основные определения, связанные с частичноупорядоченными множествами и решетками, анализом формальных понятий(АФП), решетками замкнутых описаний, синтаксическими и семантическимимоделями представления текста. Также рассматриваются некоторые подходы кструктурному обучению на текстовых данных. Вводится модель структурногопредставления текстовых абзацев – чаща разбора.Решетка–частичныйпорядок(антисимметричноетранзитивноерефлексивное бинарное отношение), для любых двух элементов которого10существуют инфимум и супремум. Решетки замкнутых описаний, называемыетакже узорными структурами (pattern structures) предназначены для работы сосложными данными.

Узорная структура – это тройка G,  D,множество объектов,  D, ,  , гдеG –– полная полурешетка всевозможных описаний, а :G  D – функция, которая сопоставляет каждому объекту из множества Gего описание из D . Операцияпозволяет вычислить сходство между двумяописаниями. Проекция узорной структуры – это функция  : D  D , котораяявляетсямонотоннойидемпотентнойx  y   x    y  ,сжимающей  x  xи   x     x  .

Для получения проекции узорной структурымы должны спроецировать функцию – описание объектов, а также полурешеткуописаний:  G,  D, ,   G,  D ,   ,   , гдеD   D   d  D | d   D :  d    d и x, y  D, xy   x y  .Теория решеток замкнутых описаний находит своё применение внескольких областях, в частности, она может быть использована для обработкитекста на естественном языке.

Автор приводит несколько основных способовпредставления текстовых данных, применяемых для этой обработки.Модель «мешка слов» («bag-of-words») дает упрощенное представлениетекста, применяемое, в частности, в задаче информационного поиска. В этоймоделитекстпредставляетсякакнеупорядоченныйнаборслов(илисловосочетаний) без учета грамматики и порядка слов.Дерево синтаксического разбора (syntactic parse tree) – это упорядоченноедерево, которое отражает синтаксическую структуру предложения или строкисогласно некоторой формальной грамматике. Выделяют два основных класса:деревья составляющих (constituency tree) и деревья зависимостей (dependency11tree). Деревья синтаксического разбора используются и для компьютерныхязыков, и для обработки текстов на естественных языках.Еслирассматриватьболееобъемныетексты,например,абзацы,состоящие из нескольких предложений, то использования синтаксическойинформации недостаточно.

В этом случае источником структурных связеймогут служить семантические теории, учитывающие смысловые отношениямежду фрагментами текста. В работе используется несколько типов такихсвязей, описание которых приводит автор: кореферентные связи (coreference),таксономические отношения («та же сущность», гипоним, гипероним и т.д.),риторические отношения (часть теории риторических структур), связи междукоммуникативными действиями (часть теория речевых актов). Такжеприводится краткое описание нескольких теорий, позволяющих устанавливатьсвязи между предложениями, но не включенных в модель: теории Kпредставлений, теорией семантических баз данных и т.д.Используя семантические теории, позволяющие установить связи внутритекста, состоящего из нескольких предложений, можно обобщить понятиедерева синтаксического разбора на случай текстового абзаца.Определение1.1.Чащейразборатекстовогоабзацаназываетсясовокупность множества деревьев разбора предложений абзаца и связейнескольких типов, устанавливаемых между вершинами деревьев.

Каждая связь– это упорядоченная пара вершин деревьев разбора.Со структурной точки зрения чаща представляет собой ориентированныйграф, который включает в себя деревья разбора, а также дуги, соответствующиенесинтаксическим связям.Альтернативным представлением короткого текста могут служитьвведенныеИ.Мельчукомсемантико-коммуникативныеструктуры.Ониописывают текст с помощью 8 логически независимых пар категорий иобобщают многие известные семантические теории. Это представление12является более универсальным (и применимым к русскому языку), однако длянего отсутствует программная реализация и законченное математическоеописание.В исследовании также используются так называемые ядерные функции,применяемые в задаче классификации коротких текстов. Ядерные функцииприменяются в сочетании с широким классом алгоритмов обучения,основанных на скалярном произведении в векторных пространствах.

Одним изметодов является Метод Опорных Векторов (Support Vector Machine).Применение ядер позволяет использовать данный метод для объектов,имеющих сложную структуру и очень большое число свойств, не прибегая кявному выделению этих признаков. Одним из таких объектов являются деревьяразбора, для которых также вводятся функции ядра.Во второй главе описывается графовая модель текстовых абзацев и еёприменение в задаче информационного поиска (для английского языка).Рассматриваются методы вычисления полного и приближенного структурногосходстватекстовыхабзацев,определяетсяпроекцияструктурногопредставления текстового абзаца в виде расширенных синтаксических групп.Проводится анализ полученных результатов, демонстрируется преимущество,достигаемое за счет вычисления сходства на абзацах, производится сравнениеметодов, основанных на полном и приближенном сходстве. Также в главеописываетсяприменениепостроенноймоделидляиерархическойкластеризации текстовых абзацев, источником которых может служить,например, поисковая выдача.В рамках расширения модели представления текста в виде чащи разбораавтором вводится операция обобщения абзацев текста.

Она определяется черезобобщение соответствующих им чащ разбора. Применяемая в работе идеясостоит в расширении понятия «наименее общего обобщения» (примеромможет служить антиунификация логических формул и т.д.) в направлении13структурного представления текстовых абзацев и последующем использованииэтой операции для вычисления сходства между состоящими из несколькихпредложений вопросами и возможными ответами на них.Используянесинтаксическиесвязи,авторрасширяетпонятиесинтаксической группы на случай нескольких предложений.

Несинтаксическиесвязи между вершинами деревьев разбора позволяют объединять несколькогрупп из разных предложений или из одного предложения между собой. Такиесвязи при обходе группы условно позволяют «перескакивать» с одного дереваразбора на другое. В работе рассматриваются следующие типы групп: Синтаксические или регулярные группы; Группы, включающие кореферентные и таксономические связи. Онитакже называются чащевыми группами. Риторические группы (RST).

Две группы (каждая из них может быть ичащевой, и синтаксической), соединенные риторическим отношением. Коммуникативные группы (CA). Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической),объединенныесвязьюмеждудвумякоммуникативными действиями.Дляудобствавсеобъединенныенесинтаксическимисвязямисинтаксические группы (чащевые, RST, CA) называются расширеннымигруппами.Если рассматривать абзацы как объекты, а чащи разбора как их описания,то операция обобщения или сходства – это полурешеточная операцияпересечения.

Если представить чащу в виде графа, то пересечение двух чащнаиболее естественным образом определяется как множество наибольшихобщих подграфов для соответствующих им графов. Выполнение данной14операции является NP-трудной задачей, поэтому для эффективного вычисленияс сохранением свойств операции можно воспользоваться механизмом проекций.В работе применяются два способа вычисления обобщения: с использованиемполного описания и с использованием проекций.Определение проекции допускает существование большого числаспособов её задания.

Автор определяет проекцию чащи как множество всехмаксимальныхповложениюсинтаксическихирасширенныхгрупп,вычисленных для данного абзаца. Со структурной точки зрения такая проекция– это максимальные по вложению поддеревья графа с дополнительнымисвойствами. В работе приводится алгоритм формирования всех расширенныхгрупп для текстового абзаца.Пересечение на проекциях заключается в попарном пересечении группдля каждого типа из двух множеств и выборе наибольших по вложениюподгрупп. Операция пересечения двух групп определяется внутри каждого типагрупп.

Работа с проекциями позволяет добиться экономии по сложности(переход к работе с деревьями) без значимого ущерба для качества результата(группы учитывают все необходимые лингвистические связи внутри абзаца).В работе формулируется алгоритм вычисления сходства для двух абзацевс использованием проекций:1. Выполнить их фрагментацию и извлечь все синтаксические группы изкаждого предложения.2. Найти семантические связи внутри абзаца.3. Используя семантические связи, построить на основе синтаксических группрасширенные группы.4. Провести обобщение для каждого из четырех типов групп, заключающееся впоиске множества наибольших общих подгрупп для каждой пары групподного и того же типа.15Построенная модель применяется для решения задачи информационногопоиска. Использование абзацев текста в качестве запросов применяется,например,воснованныхнапоискерекомендательныхсистемах.Рекомендательные агенты отслеживают действия пользователей чатов, блогов ифорумов, комментарии пользователей на торговых сайтах и предлагают вебдокументы и их фрагменты, относящиеся к решениям о покупке товара.

Характеристики

Тип файла

PDF-файл

Размер

543,34 Kb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.