Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей), страница 8
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
) ‒ длинапоследовательности, то есть количество дочерних вершин.49Далее вводятся штрафы для глубины деревьев и для длиныпоследовательности потомков . Итоговое выражение: n1 , n2 2 I , I12 ,l I1 l I 2 d I d I12l I1 j 1 , cn1 I1 j , cn2 I 2 jгде d ( I1 ) I1l I I11 и d ( I 2 ) I 2l I I 21 .12Таким образом, штраф накладывается на большие деревья ипоследовательности дочерних вершин, в которых есть пропуски.502. Модели и методы поиска ответов на сложные запросы2.1 ВведениеСовременныепоисковыемашинынедостаточнохорошообрабатывают запросы, состоящие из нескольких предложений.
Онинаходят либо очень похожие документы (если таковые имеются), либодокументы, сильно отличающиеся от ожидаемого результата, чтоделает результаты поиска не слишком полезными для пользователя.Это обусловлено тем, что для запросов, состоящих из несколькихпредложений, довольно трудно построить ранжирование, основанноена данных о пользовательских «кликах» по результатам, так как числотакогороданеобходимазапросовпрактическилингвистическаянеограничено.технология,Поэтомукотораябыпереупорядочивала потенциальные ответы, используя структурноесходство между вопросом и ответом. В нашем исследованиипредлагаетсяпредставлениетекстовогоабзаца,позволяющееотслеживать упомянутые структурные различия, используя не толькоинформацию, содержащуюся в деревьях разбора, но и дискурсивнуюинформацию,характеризующуюабзацкаклингвистическуюструктуру.
Исследование ориентировано на обработку текстов наанглийском языке.Использование абзацев текста в качестве запросов применяется,например, в основанных на поиске рекомендательных системах [53–55]. Рекомендательные агенты отслеживают действия пользователейчатов, блогов и форумов, комментарии пользователей на торговыхсайтах и предлагают веб-документы и их фрагменты, относящиеся крешениям о покупке товара. Для формирования рекомендации агентыдолжны взять части текста, построить запрос для поисковой системы,запустить его с помощью API поисковой системы, такой как Yahoo51или Bing, и отфильтровать нерелевантные по отношению к решению опокупке результаты поиска.
Последний шаг имеет решающеезначение для разумного функционирования агента, поскольку низкаярелевантность приведет к утрате доверия по отношению к механизмурекомендаций. Поэтому нахождение точной оценки сходства междудвумя частями текста имеет решающее значение для успешногоиспользования рекомендательных агентов.Деревья синтаксического разбора являются стандартной формойпредставления синтаксической структуры предложений [58–60].
Внашем исследовании для представления лингвистической структурыабзаца текста используются деревья разбора, конструируемые длякаждого предложения абзаца, а также обобщенная модель чащиразбора (Parse Thicket), используемая для представления абзаца.2.2 Обобщенная модель текстового абзацаВработе[61]отмечаетсятеоретическаявозможностьпостроения структурного представления абзаца текста и вводитсяпонятие чащи разбора (Parse Thicket), которая определяется какориентированный граф, включающий в себя деревья синтаксическогоразбора,атакже(опционально)дуги,соответствующиенесинтаксическим связям. В нашем исследовании эта модельреализуется на практике, а также модифицируется и расширяется засчет добавления в неё операции обобщения абзацев текста иконкретных типов несинтаксических (дискурсивных) связей.
Этамодификация позволяет применять данную модель в задачах поиска,классификации, кластеризации текстов.Определение 2.1. Обобщенной моделью текстового абзаца наоснове «чащи разбора» называется пара (, ⊓), где – множество,состоящее из ориентированного графа с метками на вершинах и52ребрах («чаща разбора»), а ⊓ – операция структурного обобщения,определяемая на произвольном конечном множестве графов сметками вершин и ребер.Определим вначале операцию обобщения для двух чащ разбораи покажем, как применение этой операции позволяет решать задачувычисления сходства текстов и повышения релевантности поиска.Использование обобщения для оценки сходства продолжает линиюструктурного подхода к машинному обучению [62–65], альтернативойкоторомуявляетсяизмерениестатистическогосходствакакрасстояния в пространстве признаков [66–69].
Применяемая в даннойработе идея состоит в расширении понятия «наименее общегообобщения» (примером может служить антиунификация логическихформул [70, 71]) в направлении структурного представлениятекстовых абзацев и последующем использовании этой операции длявычисления сходства между состоящими из нескольких предложенийвопросами и возможными ответами на них.Рассматриваемое обобщение абзацев текста основано наоперации обобщения предложений [72, 73]. Для предложенийрезультатомоперацииявляетсямножествомаксимальных(повложению) общих поддеревьев для соответствующих деревьевразбора. Соответственно, наиболее естественным образом операциюструктурного обобщения для абзацев можно определить следующимобразом.Определение 2.2.
Представим текстовые абзацы 1 и 2 в видеориентированных графов («чащ разбора») 1 и 2 . Тогда операцияобобщения этих абзацев 1 ⊓ 2 определяется как { } - множествовсех максимальных по вложению (с учетом меток на вершинах иребрах) общих подграфов графов из 1 и 2 .53Такая операция ассоциативна и коммутативна и может бытьприменена для обобщения произвольного конечного числа абзацев.В дополнение к построению обобщений для отдельныхпредложенийпредпринимаетсяпопыткаопределить,какнесинтаксические связи между словами в предложениях могут бытьиспользованы для вычисления сходства между текстами [13].
Дляэтогоприменяютсяспециальнопостроенныеформализациидискурсивных теорий, в частности, теории риторических структур[74].2.3 Применение чащ разбора для нахождения ответов на вопросыЕсли мы построили последовательность деревьев разбора длявопроса и для ответа, как мы можем сопоставить их между собой?Существует ряд исследований, посвященных вопросу вычисленияпопарного сходства между деревьями разбора [58, 76].
Тем не менее,для того чтобы использовать связи внутри абзаца и избежатьзависимостиотраспределениясодержанияпонесколькимпредложениям ответа, будем рассматривать абзац в целом (т.е. чащуразбора этого абзаца), а не просто отдельные предложения, входящиев этот абзац. В данной концепции для определения того, насколькоудачным является ответ на вопрос, достаточно сопоставить чащиответа и вопроса [42,43,45,47].2.3.1 Расширенные группыДля построения структуры абзаца синтаксические отношения,зафиксированныевдеревьяхразбора,дополнимспомощьюнесинтаксических связей. В качестве таких связей в данной работеиспользуются: Кореферентные и таксономические связи:анафора54 «таже сущность» «частныйслучай»«более общий случай» и т.д. Связи, полученные с помощью применения дискурсивныхтеорий (см.
раздел 2.3.3).Используя несинтаксические связи, мы можем расширитьпонятие синтаксической группы на случай нескольких предложений.Припоискесходствамеждуотдельнымипредложениямисопоставляются именные, глагольные группы и другие виды групп,фигурирующие в предложениях. Несинтаксические связи междувершинами деревьев разбора позволяют объединять несколько группиз разных предложений или из одного предложения между собой.Таким образом, мы можем расширить понятие группы, допустиввключение в группу одной или нескольких несинтаксических связей.Такие связи при обходе группы условно позволяют «перескакивать» содного дерева разбора на другое. В данной работе рассматриваютсяследующие типы групп: Синтаксические, или регулярные группы; Группы, включающие кореферентные (см., например, [77]) итаксономические связи. Для удобства будем называть ихчащевыми группами. RST-группы.
Две группы (каждая из них может быть и чащевой,и синтаксической), соединенные RST-отношением. CA-группы. Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической), объединенные связью между двумякоммуникативными действиями.55Для удобства все объединенные несинтаксическими связямисинтаксические группы (чащевые, RST, CA) будем называтьрасширенными группами.Рассмотрим пример, в котором добавление дополнительныхкореферентных связей помогает правильно сопоставить ответ свопросом:Ответ 1: … Tuberculosis is usually a lung disease.
It is cured by doctorsspecializing in pulmonology.Ответ 2: … Tuberculosis is a lung disease… Pulmonology specialist Jones wasawarded a prize for curing a special form of disease.Запрос: Which specialist doctor should treat my tuberculosis?В обоих случаях тексты содержат ключевые слова из вопроса.Но настоящим ответом является только первый текст.
Понять этопомогает установление связи Tuberculosis → disease → is cured bydoctors pulmonologists.2.3.2 Различные подходы к выявлению сходства междутекстовыми абзацамиСуществуют различные подходы к оценке сходства междудвумя абзацами текста (в рассматриваемых приложениях – вопросоми ответом): Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляетсянабор общих ключевых слов / N-грамм и их частот [69]. Попарноесравнениепредложений:применяютсясинтаксические обобщения для каждой пары предложений,полученные результаты суммируются [73, 43]. Попарное сопоставление абзацев текста [53, 73, 43].Первый подход наиболее характерен для промышленногоприменения в современной компьютерной лингвистике. Второй56подход был использован, например, в [73].
Ко второму подходу такжеотносятся применение ядер деревьев разбора [76,79] и ядерпоследовательностей деревьев [79] в алгоритмах классификации типаМетода Опорных Векторов (SVM) [81].Рассмотрим и сравним перечисленные выше подходы напримере пары коротких текстов (статей). Первый текст можнорассматриватьвкачествепоисковогозапроса(причемоннеобязательно должен быть сформулирован в виде предложения ввопросительной форме), а второй текст – как потенциальный ответ нанего. При этом необходимо помнить, что релевантный ответ долженбыть тесно связанным с запросом текстом, который в то же время неявляется копией запроса или его фрагмента.Примечание. “ ” в следующем примере и далее означаетоперацию обобщения двух абзацев.