Диссертация (1137218), страница 8

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 8 страницаДиссертация (1137218) страница 82019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 8)

) ‒ длинапоследовательности, то есть количество дочерних вершин.49Далее вводятся штрафы для глубины деревьев  и для длиныпоследовательности потомков  . Итоговое выражение:  n1 , n2     2   I , I12 ,l I1 l  I 2 d  I  d  I12l  I1 j 1     , cn1 I1 j , cn2 I 2 jгде d ( I1 )  I1l  I   I11 и d ( I 2 )  I 2l  I   I 21 .12Таким образом, штраф накладывается на большие деревья ипоследовательности дочерних вершин, в которых есть пропуски.502. Модели и методы поиска ответов на сложные запросы2.1 ВведениеСовременныепоисковыемашинынедостаточнохорошообрабатывают запросы, состоящие из нескольких предложений.

Онинаходят либо очень похожие документы (если таковые имеются), либодокументы, сильно отличающиеся от ожидаемого результата, чтоделает результаты поиска не слишком полезными для пользователя.Это обусловлено тем, что для запросов, состоящих из несколькихпредложений, довольно трудно построить ранжирование, основанноена данных о пользовательских «кликах» по результатам, так как числотакогороданеобходимазапросовпрактическилингвистическаянеограничено.технология,Поэтомукотораябыпереупорядочивала потенциальные ответы, используя структурноесходство между вопросом и ответом. В нашем исследованиипредлагаетсяпредставлениетекстовогоабзаца,позволяющееотслеживать упомянутые структурные различия, используя не толькоинформацию, содержащуюся в деревьях разбора, но и дискурсивнуюинформацию,характеризующуюабзацкаклингвистическуюструктуру.

Исследование ориентировано на обработку текстов наанглийском языке.Использование абзацев текста в качестве запросов применяется,например, в основанных на поиске рекомендательных системах [53–55]. Рекомендательные агенты отслеживают действия пользователейчатов, блогов и форумов, комментарии пользователей на торговыхсайтах и предлагают веб-документы и их фрагменты, относящиеся крешениям о покупке товара. Для формирования рекомендации агентыдолжны взять части текста, построить запрос для поисковой системы,запустить его с помощью API поисковой системы, такой как Yahoo51или Bing, и отфильтровать нерелевантные по отношению к решению опокупке результаты поиска.

Последний шаг имеет решающеезначение для разумного функционирования агента, поскольку низкаярелевантность приведет к утрате доверия по отношению к механизмурекомендаций. Поэтому нахождение точной оценки сходства междудвумя частями текста имеет решающее значение для успешногоиспользования рекомендательных агентов.Деревья синтаксического разбора являются стандартной формойпредставления синтаксической структуры предложений [58–60].

Внашем исследовании для представления лингвистической структурыабзаца текста используются деревья разбора, конструируемые длякаждого предложения абзаца, а также обобщенная модель чащиразбора (Parse Thicket), используемая для представления абзаца.2.2 Обобщенная модель текстового абзацаВработе[61]отмечаетсятеоретическаявозможностьпостроения структурного представления абзаца текста и вводитсяпонятие чащи разбора (Parse Thicket), которая определяется какориентированный граф, включающий в себя деревья синтаксическогоразбора,атакже(опционально)дуги,соответствующиенесинтаксическим связям. В нашем исследовании эта модельреализуется на практике, а также модифицируется и расширяется засчет добавления в неё операции обобщения абзацев текста иконкретных типов несинтаксических (дискурсивных) связей.

Этамодификация позволяет применять данную модель в задачах поиска,классификации, кластеризации текстов.Определение 2.1. Обобщенной моделью текстового абзаца наоснове «чащи разбора» называется пара (, ⊓), где – множество,состоящее из ориентированного графа с метками на вершинах и52ребрах («чаща разбора»), а ⊓ – операция структурного обобщения,определяемая на произвольном конечном множестве графов сметками вершин и ребер.Определим вначале операцию обобщения для двух чащ разбораи покажем, как применение этой операции позволяет решать задачувычисления сходства текстов и повышения релевантности поиска.Использование обобщения для оценки сходства продолжает линиюструктурного подхода к машинному обучению [62–65], альтернативойкоторомуявляетсяизмерениестатистическогосходствакакрасстояния в пространстве признаков [66–69].

Применяемая в даннойработе идея состоит в расширении понятия «наименее общегообобщения» (примером может служить антиунификация логическихформул [70, 71]) в направлении структурного представлениятекстовых абзацев и последующем использовании этой операции длявычисления сходства между состоящими из нескольких предложенийвопросами и возможными ответами на них.Рассматриваемое обобщение абзацев текста основано наоперации обобщения предложений [72, 73]. Для предложенийрезультатомоперацииявляетсямножествомаксимальных(повложению) общих поддеревьев для соответствующих деревьевразбора. Соответственно, наиболее естественным образом операциюструктурного обобщения для абзацев можно определить следующимобразом.Определение 2.2.

Представим текстовые абзацы 1 и 2 в видеориентированных графов («чащ разбора») 1 и 2 . Тогда операцияобобщения этих абзацев 1 ⊓ 2 определяется как { } - множествовсех максимальных по вложению (с учетом меток на вершинах иребрах) общих подграфов графов из 1 и 2 .53Такая операция ассоциативна и коммутативна и может бытьприменена для обобщения произвольного конечного числа абзацев.В дополнение к построению обобщений для отдельныхпредложенийпредпринимаетсяпопыткаопределить,какнесинтаксические связи между словами в предложениях могут бытьиспользованы для вычисления сходства между текстами [13].

Дляэтогоприменяютсяспециальнопостроенныеформализациидискурсивных теорий, в частности, теории риторических структур[74].2.3 Применение чащ разбора для нахождения ответов на вопросыЕсли мы построили последовательность деревьев разбора длявопроса и для ответа, как мы можем сопоставить их между собой?Существует ряд исследований, посвященных вопросу вычисленияпопарного сходства между деревьями разбора [58, 76].

Тем не менее,для того чтобы использовать связи внутри абзаца и избежатьзависимостиотраспределениясодержанияпонесколькимпредложениям ответа, будем рассматривать абзац в целом (т.е. чащуразбора этого абзаца), а не просто отдельные предложения, входящиев этот абзац. В данной концепции для определения того, насколькоудачным является ответ на вопрос, достаточно сопоставить чащиответа и вопроса [42,43,45,47].2.3.1 Расширенные группыДля построения структуры абзаца синтаксические отношения,зафиксированныевдеревьяхразбора,дополнимспомощьюнесинтаксических связей. В качестве таких связей в данной работеиспользуются: Кореферентные и таксономические связи:анафора54 «таже сущность» «частныйслучай»«более общий случай» и т.д. Связи, полученные с помощью применения дискурсивныхтеорий (см.

раздел 2.3.3).Используя несинтаксические связи, мы можем расширитьпонятие синтаксической группы на случай нескольких предложений.Припоискесходствамеждуотдельнымипредложениямисопоставляются именные, глагольные группы и другие виды групп,фигурирующие в предложениях. Несинтаксические связи междувершинами деревьев разбора позволяют объединять несколько группиз разных предложений или из одного предложения между собой.Таким образом, мы можем расширить понятие группы, допустиввключение в группу одной или нескольких несинтаксических связей.Такие связи при обходе группы условно позволяют «перескакивать» содного дерева разбора на другое. В данной работе рассматриваютсяследующие типы групп: Синтаксические, или регулярные группы; Группы, включающие кореферентные (см., например, [77]) итаксономические связи. Для удобства будем называть ихчащевыми группами. RST-группы.

Две группы (каждая из них может быть и чащевой,и синтаксической), соединенные RST-отношением. CA-группы. Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической), объединенные связью между двумякоммуникативными действиями.55Для удобства все объединенные несинтаксическими связямисинтаксические группы (чащевые, RST, CA) будем называтьрасширенными группами.Рассмотрим пример, в котором добавление дополнительныхкореферентных связей помогает правильно сопоставить ответ свопросом:Ответ 1: … Tuberculosis is usually a lung disease.

It is cured by doctorsspecializing in pulmonology.Ответ 2: … Tuberculosis is a lung disease… Pulmonology specialist Jones wasawarded a prize for curing a special form of disease.Запрос: Which specialist doctor should treat my tuberculosis?В обоих случаях тексты содержат ключевые слова из вопроса.Но настоящим ответом является только первый текст.

Понять этопомогает установление связи Tuberculosis → disease → is cured bydoctors pulmonologists.2.3.2 Различные подходы к выявлению сходства междутекстовыми абзацамиСуществуют различные подходы к оценке сходства междудвумя абзацами текста (в рассматриваемых приложениях – вопросоми ответом): Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляетсянабор общих ключевых слов / N-грамм и их частот [69]. Попарноесравнениепредложений:применяютсясинтаксические обобщения для каждой пары предложений,полученные результаты суммируются [73, 43]. Попарное сопоставление абзацев текста [53, 73, 43].Первый подход наиболее характерен для промышленногоприменения в современной компьютерной лингвистике. Второй56подход был использован, например, в [73].

Ко второму подходу такжеотносятся применение ядер деревьев разбора [76,79] и ядерпоследовательностей деревьев [79] в алгоритмах классификации типаМетода Опорных Векторов (SVM) [81].Рассмотрим и сравним перечисленные выше подходы напримере пары коротких текстов (статей). Первый текст можнорассматриватьвкачествепоисковогозапроса(причемоннеобязательно должен быть сформулирован в виде предложения ввопросительной форме), а второй текст – как потенциальный ответ нанего. При этом необходимо помнить, что релевантный ответ долженбыть тесно связанным с запросом текстом, который в то же время неявляется копией запроса или его фрагмента.Примечание. “  ” в следующем примере и далее означаетоперацию обобщения двух абзацев.

Характеристики

Тип файла

PDF-файл

Размер

2,58 Mb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.