Диссертация (1137241), страница 8

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 8 страницаДиссертация (1137241) страница 82019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 8)

если (или)) ‒ предтерминальная вершина, и метка ее потомка)– null, то.)и не совпадают, то2. если продукции в вершинах3. если продукции в вершинах одинаковы, и дочерние вершины )только терминальные, то4. еслипродукциивпредтерминальные,)то)∏вершинах.совпадают,вводится()ивершинырекурсивноеневыражение:))) - .1.5.2.4 Ядро частичных поддеревьевЕсли ослабить требование касательно продукций, то получатсяподструктуры более общего вида, а функциядвух вершин иупростится [89]. Дляядро на синтаксических деревьях применяетсядля всех возможных подпоследовательностей потомков этих вершин.Алгоритм подсчета функции  выглядит следующим образом:1. Если метки вершин n1 и n2 разные, то ).2. В противном случае  n1 , n2   1   I ,I1∑̿̿(̿ )( ̿ )∏2 ,l(̿ ) I1 l  I 2l  I1 j 1(̿ )     cn1 I1 j , cn2 I 2 j ,)( ̿ )) где ̿и‒ последовательности индексов, отвечающиеупорядоченной последовательности потомковдля n1 исоответственно, I1 j и I 2 j ̿ указывают на j-ого потомка всоответствующей последовательности, а ) ‒ длинапоследовательности, то есть количество дочерних вершин.для n249Далее вводятся штрафы для глубины деревьев  и для длиныпоследовательности потомков  .

Итоговое выражение:  n1 , n2     2   I , I12 ,l I1 l  I 2 d  I  d  I12l  I1 j 1где d ( I1 )  I1l  I   I11 и d ( I 2 )  I 2l  I   I 21 ( ̿ )12     , cn1 I1 j , cn2 I 2 j̿( ̿ )-̿ .Таким образом, штраф накладывается на большие деревья ипоследовательности дочерних вершин, в которых есть пропуски.502.

Модели и методы поиска ответов на сложные запросы2.1 ВведениеСовременныепоисковыемашинынедостаточнохорошообрабатывают запросы, состоящие из нескольких предложений. Онинаходят либо очень похожие документы (если таковые имеются), либодокументы, сильно отличающиеся от ожидаемого результата, чтоделает результаты поиска не слишком полезными для пользователя.Это обусловлено тем, что для запросов, состоящих из несколькихпредложений, довольно трудно построить ранжирование, основанноена данных о пользовательских «кликах» по результатам, так как числотакогороданеобходимазапросовпрактическилингвистическаянеограничено.технология,Поэтомукотораябыпереупорядочивала потенциальные ответы, используя структурноесходство между вопросом и ответом. В нашем исследованиипредлагаетсяпредставлениетекстовогоабзаца,позволяющееотслеживать упомянутые структурные различия, используя не толькоинформацию, содержащуюся в деревьях разбора, но и семантическуюинформацию,характеризующуюабзацкаклингвистическуюструктуру.

Исследование ориентировано на обработку текстов наанглийском языке.Использование абзацев текста в качестве запросов применяется,например, в основанных на поиске рекомендательных системах [37–39]. Рекомендательные агенты отслеживают действия пользователейчатов, блогов и форумов, комментарии пользователей на торговыхсайтах и предлагают веб-документы и их фрагменты, относящиеся крешениям о покупке товара. Для формирования рекомендации агентыдолжны взять части текста, построить запрос для поисковой системы,запустить его с помощью API поисковой системы, такой как Yahoo51или Bing, и отфильтровать нерелевантные по отношению к решению опокупке результаты поиска.

Последний шаг имеет решающеезначение для разумного функционирования агента, поскольку низкаярелевантность приведет к утрате доверия по отношению к механизмурекомендаций. Поэтому нахождение точной оценки сходства междудвумя частями текста имеет решающее значение для успешногоиспользования рекомендательных агентов.Деревья синтаксического разбора являются стандартной формойпредставления синтаксической структуры предложений [42–44]. Внашем исследовании для представления лингвистической структурыабзаца текста используются деревья разбора, конструируемые длякаждого предложения абзаца, а также обобщенная модель чащиразбора (Parse Thicket), используемая для представления абзаца.2.2 Обобщенная модель представления текстовых абзацевВработе[45]отмечаетсятеоретическаявозможностьпостроения структурного представления абзаца текста и вводитсяпонятие чащи разбора (Parse Thicket), которая определяется какориентированный граф, включающий в себя деревья синтаксическогоразбора,атакже(опционально)дуги,соответствующиенесинтаксическим связям.

В нашем исследовании эта модельреализуется на практике, а также модифицируется и расширяется засчет добавления в неё операции обобщения абзацев текста иконкретных типов несинтаксических (дискурсивных) связей. Этамодификация позволяет применять данную модель в задачах поиска,классификации, кластеризации текстов.Определение 2.1. Обобщенной моделью текстовых абзацев наоснове чащ разбора называется представление текстовых абзацев с52помощьючащразбора,дополненноеоперациейструктурногообобщения, определяемой на произвольном конечном множестве чащ.Определим вначале операцию обобщения абзацев текста длядвух чащ разбора и покажем, как применение этой операциипозволяет решать задачу вычисления сходства текстов и повышениярелевантностипоиска.Использованиеобобщениядляоценкисходства продолжает линию структурного подхода к машинномуобучению [46–49], альтернативой которому является измерениестатистического сходства как расстояния в пространстве признаков[50–53].

Применяемая в данной работе идея состоит в расширениипонятия «наименее общего обобщения» (примером может служитьантиунификация логических формул [54, 55]) в направленииструктурного представления текстовых абзацев и последующемиспользовании этой операции для вычисления сходства междусостоящими из нескольких предложений вопросами и возможнымиответами на них.Рассматриваемое обобщение абзацев текста основано наоперации обобщения предложений [56, 57]. В дополнение кпостроениюобобщенийдляотдельныхпредложенийпредпринимается попытка определить, как несинтаксические связимежду словами в предложениях могут быть использованы длявычисления сходства между текстами [12].

Для этого применяютсяспециально построенные формализации семантических теорий, вчастности, теории риторических структур [58].2.3 Применение чащ разбора для нахождения ответов на вопросыЕсли мы построили последовательность деревьев разбора длявопроса и для ответа, как мы можем сопоставить их между собой?Существует ряд исследований, посвященных вопросу вычисления53попарного сходства между деревьями разбора [42, 59, 59]. Тем неменее, для того чтобы использовать связи внутри абзаца и избежатьзависимостиотраспределениясодержанияпонесколькимпредложениям ответа, будем рассматривать абзац в целом (т.е.

чащуразбора этого абзаца), а не просто отдельные предложения, входящиев этот абзац. В данной концепции для определения того, насколькоудачным является ответ на вопрос, достаточно сопоставить чащиответа и вопроса.2.3.1 Расширенные группыДля построения структуры абзаца синтаксические отношения,зафиксированныевдеревьяхразбора,дополнимспомощьюнесинтаксических связей. В качестве таких связей в данной работеиспользуются: Кореферентные и таксономические связи:анафора «таже сущность» «частныйслучай»«более общий случай» и т.д. Связи, полученные с помощью применения семантическихтеорий (см. раздел 2.3.3).Используя несинтаксические связи, мы можем расширитьпонятие синтаксической группы на случай нескольких предложений.Припоискесходствамеждуотдельнымипредложениямисопоставляются именные, глагольные группы и другие виды групп,фигурирующие в предложениях.

Несинтаксические связи междувершинами деревьев разбора позволяют объединять несколько группиз разных предложений или из одного предложения между собой.Таким образом, мы можем расширить понятие группы, допустив54включение в группу одной или нескольких несинтаксических связей.Такие связи при обходе группы условно позволяют «перескакивать» содного дерева разбора на другое. В данной работе рассматриваютсяследующие типы групп: Синтаксические или регулярные группы; Группы, включающие кореферентные (см., например, [60]) итаксономические связи.

Также будем называть их чащевымигруппами. RST-группы. Две группы (каждая из них может быть и чащевой,и синтаксической), соединенные RST-отношением. CA-группы. Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической), объединенные связью между двумякоммуникативными действиями.Для удобства все объединенные несинтаксическими связямисинтаксические группы (чащевые, RST, CA) будем называтьрасширенными группами.Рассмотрим пример, в котором добавление дополнительныхкореферентных связей помогает правильно сопоставить ответ свопросом:Ответ 1: … Tuberculosis is usually a lung disease.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.