Диссертация (1137241), страница 8
Текст из файла (страница 8)
если (или)) ‒ предтерминальная вершина, и метка ее потомка)– null, то.)и не совпадают, то2. если продукции в вершинах3. если продукции в вершинах одинаковы, и дочерние вершины )только терминальные, то4. еслипродукциивпредтерминальные,)то)∏вершинах.совпадают,вводится()ивершинырекурсивноеневыражение:))) - .1.5.2.4 Ядро частичных поддеревьевЕсли ослабить требование касательно продукций, то получатсяподструктуры более общего вида, а функциядвух вершин иупростится [89]. Дляядро на синтаксических деревьях применяетсядля всех возможных подпоследовательностей потомков этих вершин.Алгоритм подсчета функции выглядит следующим образом:1. Если метки вершин n1 и n2 разные, то ).2. В противном случае n1 , n2 1 I ,I1∑̿̿(̿ )( ̿ )∏2 ,l(̿ ) I1 l I 2l I1 j 1(̿ ) cn1 I1 j , cn2 I 2 j ,)( ̿ )) где ̿и‒ последовательности индексов, отвечающиеупорядоченной последовательности потомковдля n1 исоответственно, I1 j и I 2 j ̿ указывают на j-ого потомка всоответствующей последовательности, а ) ‒ длинапоследовательности, то есть количество дочерних вершин.для n249Далее вводятся штрафы для глубины деревьев и для длиныпоследовательности потомков .
Итоговое выражение: n1 , n2 2 I , I12 ,l I1 l I 2 d I d I12l I1 j 1где d ( I1 ) I1l I I11 и d ( I 2 ) I 2l I I 21 ( ̿ )12 , cn1 I1 j , cn2 I 2 j̿( ̿ )-̿ .Таким образом, штраф накладывается на большие деревья ипоследовательности дочерних вершин, в которых есть пропуски.502.
Модели и методы поиска ответов на сложные запросы2.1 ВведениеСовременныепоисковыемашинынедостаточнохорошообрабатывают запросы, состоящие из нескольких предложений. Онинаходят либо очень похожие документы (если таковые имеются), либодокументы, сильно отличающиеся от ожидаемого результата, чтоделает результаты поиска не слишком полезными для пользователя.Это обусловлено тем, что для запросов, состоящих из несколькихпредложений, довольно трудно построить ранжирование, основанноена данных о пользовательских «кликах» по результатам, так как числотакогороданеобходимазапросовпрактическилингвистическаянеограничено.технология,Поэтомукотораябыпереупорядочивала потенциальные ответы, используя структурноесходство между вопросом и ответом. В нашем исследованиипредлагаетсяпредставлениетекстовогоабзаца,позволяющееотслеживать упомянутые структурные различия, используя не толькоинформацию, содержащуюся в деревьях разбора, но и семантическуюинформацию,характеризующуюабзацкаклингвистическуюструктуру.
Исследование ориентировано на обработку текстов наанглийском языке.Использование абзацев текста в качестве запросов применяется,например, в основанных на поиске рекомендательных системах [37–39]. Рекомендательные агенты отслеживают действия пользователейчатов, блогов и форумов, комментарии пользователей на торговыхсайтах и предлагают веб-документы и их фрагменты, относящиеся крешениям о покупке товара. Для формирования рекомендации агентыдолжны взять части текста, построить запрос для поисковой системы,запустить его с помощью API поисковой системы, такой как Yahoo51или Bing, и отфильтровать нерелевантные по отношению к решению опокупке результаты поиска.
Последний шаг имеет решающеезначение для разумного функционирования агента, поскольку низкаярелевантность приведет к утрате доверия по отношению к механизмурекомендаций. Поэтому нахождение точной оценки сходства междудвумя частями текста имеет решающее значение для успешногоиспользования рекомендательных агентов.Деревья синтаксического разбора являются стандартной формойпредставления синтаксической структуры предложений [42–44]. Внашем исследовании для представления лингвистической структурыабзаца текста используются деревья разбора, конструируемые длякаждого предложения абзаца, а также обобщенная модель чащиразбора (Parse Thicket), используемая для представления абзаца.2.2 Обобщенная модель представления текстовых абзацевВработе[45]отмечаетсятеоретическаявозможностьпостроения структурного представления абзаца текста и вводитсяпонятие чащи разбора (Parse Thicket), которая определяется какориентированный граф, включающий в себя деревья синтаксическогоразбора,атакже(опционально)дуги,соответствующиенесинтаксическим связям.
В нашем исследовании эта модельреализуется на практике, а также модифицируется и расширяется засчет добавления в неё операции обобщения абзацев текста иконкретных типов несинтаксических (дискурсивных) связей. Этамодификация позволяет применять данную модель в задачах поиска,классификации, кластеризации текстов.Определение 2.1. Обобщенной моделью текстовых абзацев наоснове чащ разбора называется представление текстовых абзацев с52помощьючащразбора,дополненноеоперациейструктурногообобщения, определяемой на произвольном конечном множестве чащ.Определим вначале операцию обобщения абзацев текста длядвух чащ разбора и покажем, как применение этой операциипозволяет решать задачу вычисления сходства текстов и повышениярелевантностипоиска.Использованиеобобщениядляоценкисходства продолжает линию структурного подхода к машинномуобучению [46–49], альтернативой которому является измерениестатистического сходства как расстояния в пространстве признаков[50–53].
Применяемая в данной работе идея состоит в расширениипонятия «наименее общего обобщения» (примером может служитьантиунификация логических формул [54, 55]) в направленииструктурного представления текстовых абзацев и последующемиспользовании этой операции для вычисления сходства междусостоящими из нескольких предложений вопросами и возможнымиответами на них.Рассматриваемое обобщение абзацев текста основано наоперации обобщения предложений [56, 57]. В дополнение кпостроениюобобщенийдляотдельныхпредложенийпредпринимается попытка определить, как несинтаксические связимежду словами в предложениях могут быть использованы длявычисления сходства между текстами [12].
Для этого применяютсяспециально построенные формализации семантических теорий, вчастности, теории риторических структур [58].2.3 Применение чащ разбора для нахождения ответов на вопросыЕсли мы построили последовательность деревьев разбора длявопроса и для ответа, как мы можем сопоставить их между собой?Существует ряд исследований, посвященных вопросу вычисления53попарного сходства между деревьями разбора [42, 59, 59]. Тем неменее, для того чтобы использовать связи внутри абзаца и избежатьзависимостиотраспределениясодержанияпонесколькимпредложениям ответа, будем рассматривать абзац в целом (т.е.
чащуразбора этого абзаца), а не просто отдельные предложения, входящиев этот абзац. В данной концепции для определения того, насколькоудачным является ответ на вопрос, достаточно сопоставить чащиответа и вопроса.2.3.1 Расширенные группыДля построения структуры абзаца синтаксические отношения,зафиксированныевдеревьяхразбора,дополнимспомощьюнесинтаксических связей. В качестве таких связей в данной работеиспользуются: Кореферентные и таксономические связи:анафора «таже сущность» «частныйслучай»«более общий случай» и т.д. Связи, полученные с помощью применения семантическихтеорий (см. раздел 2.3.3).Используя несинтаксические связи, мы можем расширитьпонятие синтаксической группы на случай нескольких предложений.Припоискесходствамеждуотдельнымипредложениямисопоставляются именные, глагольные группы и другие виды групп,фигурирующие в предложениях.
Несинтаксические связи междувершинами деревьев разбора позволяют объединять несколько группиз разных предложений или из одного предложения между собой.Таким образом, мы можем расширить понятие группы, допустив54включение в группу одной или нескольких несинтаксических связей.Такие связи при обходе группы условно позволяют «перескакивать» содного дерева разбора на другое. В данной работе рассматриваютсяследующие типы групп: Синтаксические или регулярные группы; Группы, включающие кореферентные (см., например, [60]) итаксономические связи.
Также будем называть их чащевымигруппами. RST-группы. Две группы (каждая из них может быть и чащевой,и синтаксической), соединенные RST-отношением. CA-группы. Здесь возможны два случая:Синтаксическая или обычная группа с выделенным в нейкоммуникативным действием.Две группы (каждая из них может быть и чащевой, исинтаксической), объединенные связью между двумякоммуникативными действиями.Для удобства все объединенные несинтаксическими связямисинтаксические группы (чащевые, RST, CA) будем называтьрасширенными группами.Рассмотрим пример, в котором добавление дополнительныхкореферентных связей помогает правильно сопоставить ответ свопросом:Ответ 1: … Tuberculosis is usually a lung disease.