diss005-ilvovsky_AvtoRef (1137205), страница 2

Файл №1137205 diss005-ilvovsky_AvtoRef (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 2 страницаdiss005-ilvovsky_AvtoRef (1137205) страница 22019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Эксперименты продемонстрировалиулучшение по сравнению с существующими аналогами. Разработанныеалгоритмы и методы были успешно внедрены в реальных проектах, а такжеиспользованы в преподавательской деятельности Департамента анализа данныхи искусственного интеллекта Факультета компьютерных наук НИУ ВШЭ.Компания ООО «ФОРС-Центр разработки» применила метод классификациитекстовых абзацев в проекте оценки пользовательских предпочтений. КомпанияАвикомпвнедриламетодвыявлениятождественныхденотатовдляоптимизации прикладной онтологии.

Все разработанные методы былиреализованы в виде программного комплекса, предназначенного для решенияисследовательских и прикладных задач.Достоверность полученных результатов подтверждена строгостьюпостроенныхрезультатовматематическихчисленныхпрограммных реализаций.моделей,расчетовиэкспериментальнойпрактическойпроверкойэффективностью8Апробациярезультатовработы.Основныерезультатыработыобсуждались и докладывались на следующих научных конференциях исеминарах:1.

9-ймеждународнойконференции«Интеллектуализацияобработкиинформации» (ИОИ-2012), Будва, Черногория.2. 1-м семинаре по анализу формальных понятий и информационному поиску(FCAIR-2013)врамках35-йевропейскойконференциипоинформационному поиску (ECIR-2013), Москва, Россия.3. 11-й международной конференции по анализу формальных понятий(ICFCA-2013), Дрезден, Германия.4. 8-й международной конференции по компьютерной лингвистике ДИАЛОГ2013, Москва, Россия.5. 3-м семинаре по представлению знаний в виде графов (GKR-2013) в рамках23-й объединенной международной конференции по искусственномуинтеллекту (IJCAI-2013), Пекин, Китай.6. 7-й международной конференции по компьютерной лингвистике RANLP2013, Хисаря, Болгария.7. 8-й международной конференции по компьютерной лингвистике RANLP2015, Хисаря, Болгария.8.

16-й международной конференции по интеллектуальному анализу данныхAIMSA-2014, Варна, Болгария.9. 14-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2014, Катманду, Непал.10. 15-й международной конференции по интеллектуальной обработке текста икомпьютерной лингвистике CICLING-2015, Каир, Египет.911.

52-й международной конференции Ассоциации компьютерной лингвистикиACL-2014, Балтимор, США.12. 53-й международной конференции Ассоциации компьютерной лингвистикиACL-2015, Пекин, Китай.Публикация результатов. Основные результаты работы изложены в 15научныхстатьях.12статейопубликованыврецензируемыхтрудахмеждународных конференций, 3 статьи опубликованы в журналах из спискаВАК.Структура диссертации. Диссертация состоит из введения, пяти глав,заключения, списка использованной литературы и приложений.

Общий объемдиссертации – 250 с. машинописного текста (с приложениями). Основная частьработы изложена на 164 с. и содержит 16 рисунков и 11 таблиц. Библиографиявключает в себя 139 наименований.Содержание работыВовведениираскрываетсяактуальностьтемыдиссертации,формулируются проблемы исследования, предмет исследования, определяетсяцель работы, описываются методы исследования, излагаются основныенаучные результаты, обосновывается теоретическая и практическая значимостьработы, даётся общая характеристика исследования.В первой главе рассматриваются теоретические основы используемых вдальнейшем моделей и методов и описываются особенности моделированиятекстовых данных. Приводятся основные определения, связанные с частичноупорядоченными множествами и решетками, анализом формальных понятий(АФП), решетками замкнутых описаний, синтаксическими и дискурсивнымимоделями представления текста.

Также рассматриваются некоторые подходы кструктурному обучению на текстовых данных. Вводится модель структурногопредставления текстовых абзацев – чаща разбора.10Решетка–частичныйпорядок(антисимметричноетранзитивноерефлексивное бинарное отношение), для любых двух элементов которогосуществуют инфимум и супремум. Решетки замкнутых описаний, называемыетакже узорными структурами (pattern structures) предназначены для работы сосложными данными. Узорная структура – это тройка  G,  D,множество объектов,  D, ,  , гдеG –– полная полурешетка всевозможных описаний, а :G  D – функция, которая сопоставляет каждому объекту из множества Gего описание из D .

Операцияпозволяет вычислить сходство между двумяописаниями. Проекция узорной структуры – это функция  : D  D , котораяявляетсямонотоннойx  y   x    y  ,сжимающей  x  xиидемпотентной    x     x  . Для получения проекции узорной структурымы должны спроецировать функцию – описание объектов, а также полурешеткуописаний:  G,  D, ,   G,  D ,   ,   , гдеD   D   d  D | d   D :  d    d и x, y  D, xy   x y  .Теория решеток замкнутых описаний находит своё применение внескольких областях, в частности, она может быть использована для обработкитекста на естественном языке.

Автор приводит несколько основных способовпредставления текстовых данных, применяемых для этой обработки.Модель «мешка слов» («bag-of-words») дает упрощенное представлениетекста, применяемое, в частности, в задаче информационного поиска. В этоймоделитекстпредставляетсякакнеупорядоченныйнаборслов(илисловосочетаний) без учета грамматики и порядка слов.Дерево синтаксического разбора (syntactic parse tree) – это упорядоченноедерево, которое отражает синтаксическую структуру предложения или строкисогласно некоторой формальной грамматике. Выделяют два основных класса:11деревья составляющих (constituency tree) и деревья зависимостей (dependencytree). Деревья синтаксического разбора используются и для компьютерныхязыков, и для обработки текстов на естественных языках.Еслирассматриватьболееобъемныетексты,например,абзацы,состоящие из нескольких предложений, то использования синтаксическойинформации недостаточно.

В этом случае источником структурных связеймогут служить дискурсивные теории, учитывающие смысловые отношениямежду фрагментами текста. В работе используется несколько типов такихсвязей, описание которых приводит автор: кореферентные связи (coreference),таксономические отношения («та же сущность», гипоним, гипероним и т.д.),риторические отношения (теория риторических структур), связи междукоммуникативными действиями (теория речевых актов). Также приводитсякраткое описание нескольких теорий, позволяющих устанавливать связи междупредложениями, но не включенных в модель: теории семантическойорганизации данных, теории представления дискурса и т.д.Используя дискурсивные теории, позволяющие установить связи внутритекста, состоящего из нескольких предложений, можно обобщить понятиедерева синтаксического разбора на случай текстового абзаца.Определение1.1.Чащейразборатекстовогоабзацаназываетсямножество деревьев разбора предложений абзаца и связи нескольких типов,устанавливаемых между вершинами этих деревьев.

Каждая связь – этоупорядоченная пара вершин деревьев разбора.Со структурной точки зрения, чаща представляет собой ориентированныйграф, который включает в себя деревья разбора, а также дуги, соответствующиенесинтаксическим связям.В исследовании также используются так называемые ядерные функции,применяемые в задаче классификации коротких текстов в сочетании с широкимклассом линейных классификаторов, использующих скалярное произведение в12векторных пространствах. Одним из таких методов является Метод ОпорныхВекторов (Support Vector Machine).

Применение ядер позволяет использоватьданный метод для объектов, имеющих сложную структуру и очень большоечисло свойств, не прибегая к явному выделению этих признаков. В частности,он применим к деревьям синтаксического разбора, для которых также вводятсяфункции ядра.Во второй главе описывается графовая модель текстовых абзацев и еёприменение в задаче информационного поиска (для английского языка).Рассматриваются методы вычисления полного и приближенного структурногосходстватекстовыхабзацев,определяетсяпроекцияструктурногопредставления текстового абзаца в виде расширенных синтаксических групп.Проводится анализ полученных результатов, демонстрируется преимущество,достигаемое за счет вычисления сходства на абзацах, производится сравнениеметодов, основанных на полном и приближенном сходстве. Также в главеописываетсяприменениепостроенноймоделидляиерархическойкластеризации текстовых абзацев, источником которых может служить,например, поисковая выдача.В рамках расширения модели «чащи разбора» автором вводитсяассоциативная и коммутативная операция обобщения (или сходства) текстов.Если представить текстовые абзацы 1 и 2 в виде ориентированных графов(«чащ разбора») 1 и 2 , то операция обобщения этих абзацев 1 ⊓ 2 наиболееестественным образом определяется как { } - множество всех максимальныхпо вложению (с учетом меток на вершинах и ребрах) общих подграфов графовиз 1 и 2 .

Характеристики

Тип файла

PDF-файл

Размер

655,82 Kb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.