Диссертация (1137241), страница 19
Текст из файла (страница 19)
Работа с решетками формальных понятий с помощью визуальныхрешателей:3.1Построение порядковых фильтров и идеалов, айсберга решетки;3.2Преобразованиеинастройкавизуальногопредставлениярешетки;3.3Сохранение решетки в нескольких форматах.4. Построение базисов ассоциативных правил и импликаций.5. Фильтрацияформальныхпонятийспомощьюиндексов(реализованы в виде скриптов):5.1Индексы экстенсиональной и интенсиональной устойчивости;5.2Индекс отделимости;5.3Разработанныйврамкахданногодиссертационногоисследования индекс DII, который предназначен для выявлениятождественных денотатов (см. главу 4).6. Сохранение результатов в виде отчетов.1375.2 Программный комплекс, предназначенный для обработкичащ разбора5.2.1 Архитектура комплексаДанный программный комплекс предназначен для обработкитекстовыхданных.Поклассификациипрограммныхсистем,приведенной в [13], он относится к системам специальногоназначения с открытой лицензией, которые могут быть использованыкак часть других систем.
Проект включает в себя следующиеоригинальные модули: Модуль для работы с чащами разбора: построение, обобщение,вычисление проекций и т.д.; Модуль для построения узорных структур на чащах разбора иих проекциях; Модульпоиска:нахождениерезультатовиповторноеранжирование; Модуль обучения на абзацах: формирование обучающей итестовой выборки, запуск процедуры обучения и т.д. Риторический парсер; Модуль для выделения коммуникативных действий.В проекте используются следующие технологии: OpenNLP/Stanford NLP парсеры [72, 73] – для построениядеревьев синтаксического разбора; Stanford NLP Coreference – для разрешения анафор и построениякореферентных связей; Bing API – для реализации базового поиска; Apache SOLR – для обеспечения интеграции с другимипоисковыми системами;138 TK-Light [89] ‒ для обучения на деревьях с использованиемядер.Часть компонентов проекта интегрирована в проект ApacheOpenNLP.similarity. К ним относятся: Риторический парсер. Модуль для работы с чащами.Кодибиблиотекипроектадоступныпоссылкамиhttp://code.google.com/p/relevance-based-on-parse-treeshttp://svn.apache.org/repos/asf/opennlp/sandbox/opennlp-similarity/.Ключевые фрагменты кода приведены в Приложениях.Архитектуракомплексапредусматриваетвозможностьинтеграции с другими системами.
В частности, он может бытьподключен к библиотеке Lucene. Кроме того, в состав системывключен обработчик запросов SOLR, позволяющий интегрировать еёв другие поисковые приложения, подключив к ним поиск понескольким предложениям с использованием чащ для проверки ростарелевантности.5.2.2 Модуль обработки чащ разбораДанный модуль предназначен для создания и обработки чащразбора.
Он включает в себя ряд функциональных возможностей:1. Построение чащи из текстового абзаца;2. Построение проекций чащи двух видов;3. Нахождение сходства между чащами и между проекциями;4. Экспорт чащи в виде графа;5. Вывод чащи в виде текста.1395.2.3 Ранжирование поисковых результатовДанный модуль обеспечивает переранжирование поисковыхрезультатов с учетом сходства чащ разбора результата и запроса.Модуль позволяет вычислять значение релевантности для каждогообобщения чащ запроса и ответа, а также определять итоговыйпорядок с учетом этого значения.5.2.4 Обучение на абзацахДанный модуль интегрирован с процедурой обучения на ядрахдля деревьев TK-Light.
Он позволяет готовить обучающую и тестовуювыборку, записывать результаты обучения в файлы.5.2.5 Модуль кластеризации с помощью решеток замкнутыхописанийМодулькластеризациипредставляетсобойреализациюалгоритма AddIntent[19] для текстовых данных. На вход алгоритмпринимаетнабортекстов.Вкачестверешеточнойоперациипересечения в алгоритме используется операция сходства на чащах(или на проекциях чащ, то есть на множествах расширенных групп).5.2.6 Риторический парсерДанный модуль предназначен для нахождения и обобщениярасширенных групп, основанных на риторических отношениях. Заоснову при реализации парсера взяты модели, описанные в работах[66,71].
При построении группы сначала находятся маркеры,свидетельствующие о наличии риторического отношения (какправило, это глаголы), затем устанавливается связь между двумясинтаксическими глагольными группами в исследуемом тексте,выделяются риторические отношения.1405.2.7 Модуль для выявления и обработки коммуникативныхдействийМодульдействияпозволяетиихвыделятьпредикаты,втекстекоммуникативныеустанавливатьсвязимеждукоммуникативными действиями, а также выполнять обобщениеполучающихсярасширенныхгрупп.Длявыявлениякоммуникативных действий и построения связей на их основеиспользуется словарь коммуникативных действий, описанный вработе [57]. Для каждого термина из словаря используются 5бинарных свойств.5.2.8 Модуль для построения кореферентных связейПри автоматической обработке текстов на естественном языкеважно правильно сопоставлять несколько раз упомянутые объекты.Для разрешения кореференций (coreference resolution) в программномкомплексе используется модуль Coreference Resolution системыStanfordNLP[60,99].Онпредставляетсобойнабордетерминистических моделей, которые используют лексическую,синтаксическую и семантическую информацию, доступную на уровневсего документа.Алгоритм, применяемый в системе, состоит из трех основныхэтапов:1.
Обнаружение упоминаний (сущностей).2. Разрешение анафор.3. Последующая обработка полученных данных.На первом этапе извлекаются сущности вместе с информацией оних, такой как пол и число. На следующем этапе уже проходитнепосредственноеразрешениекореференций,последовательноприменяется набор фильтров, начиная с наиболее точных. Например,141первый фильтр требует точного совпадения на уровне символовмежду упоминанием и его предшественником, в то время какпоследний (с наименьшей точностью) выявляет связь междуместоимениемисуществительным.Пост-обработкапозволяет,например, удалить упоминания, упомянутые лишь единожды. Наэтапе извлечения сущностей используются ориентированные наполноту фильтры, в то время как для непосредственного разрешениякореференций уже нужна ориентация на точность.На стадии выявления упоминаний полнота важнее точности, таккаклюбоепропущенноеупоминаниегарантированноснизититоговую оценку, тогда как ложные могут и не повлиять – их можноотбросить (например, как единичные) на стадии пост-обработки.Фильтры на этом этапе упорядочены по уменьшению полноты.Каждый из них использует деревья разбора, выделение именованныхсущностей и эвристические шаблоны.
Первый фильтр выделяет всеименные фразы, притяжательные местоимения и именованныесущности в каждом предложении. Далее отбрасываются кандидаты,подпадающие под любое из следующих правил:1. удаляются упоминания, если есть большее упоминание с тем жепервым словом2. удаляются численные сущности (проценты, деньги и т.д.)3.
удаляются упоминания с частичным или квантификатором4. удаляются существительные it, участвующие в выражениях5. удаляются прилагательные, полученные из названий стран6. удаляются стоп-словаПосле выявления упоминаний они сортируются по номерупредложений и порядку обхода в глубину дерева разбора слева142направовпределаходногопредложения.Дляразрешенияиспользуется только первое упоминание в каждом кластере, так какобычно первое упоминание лучше определено и у него меньшепредшествующих кандидатов, что снижает вероятность ошибки. Длякаждого выбранного упоминания все предшествующие становятсякандидатами-предшественниками. Все фильтры «просматривают»список кандидатов, пока не будет найден подходящий, или список незакончится.
В этом подходе при сравнении двух упоминанийиспользуется информация обо всем кластере. Точнее говоря,упоминания в кластере обладают общими атрибутами (например,родом и числом). Например, если в кластере есть “a group of students”(в единственном числе) и “five students” (во множественном),признаком всего кластера станет «множественное или единственное»,что позволит сопоставить с этим кластером другие упоминания,удовлетворяющие этому признаку.На этапе разрешения кореференций используется следующийупорядоченный список фильтров:1. Выявление упоминаний2. Обработка семантической информации3. Точное совпадение строк4.
Релаксированное совпадение строк5. Совпадение структур6. Совпадение начал7. Совпадение имен собственных8. Выявление псевдонимов9. Релаксированное совпадение начал14310. Лексические цепочки (синонимия и гипонимия)11. Фильтр местоименийНа этапе пост-обработки используется два фильтра: удаляютсякластеры с одним элементом, отбрасываются упоминания, которыевстречаются дальше в тексте в качестве аппозитива или соединения.Например, для фрагмента [[Mr.
Zhou], the general manager]упоминание «Mr. Zhou» будет отброшено.144ЗаключениеВ данной работе были рассмотрены различные моделипредставления абзацев текста: мешок слов, деревья синтаксическогоразбора, чащи синтаксического разбора. Также были рассмотренатеория решеток замкнутых описаний, введены понятия формальногоконтекста, онтологии, решетки формальных понятий, узорнойструктуры и проекции узорной структуры. Помимо этого были краткоописаны теории семантического представления абзацев текста, такиекактеорияриторическихструктур,теорияречевыхактов,интегральная формальная семантика и некоторые другие. Также былоприведеноописаниеметодовобучениянаструктурахсиспользованием ядерных функций.В работе была впервые построена графовая модель текстов,использующая и обобщающая модель структурного синтактикосемантического представления текстового абзаца (чащу разбора).Модель позволяет описывать сходство текстовых абзацев в терминахобобщения их структурных графовых и древесных описаний.
Висследовании был предложен способ вычисления сходства междутекстами, основанный на операции обобщения соответствующих имчащ разбора. В работе были реализованы точное и приближенное (сиспользованием проекций) обобщение чащ разбора. Было предложенонесколько вариантов построения проекций представления и сходстваструктурных описаний. Было продемонстрировано, что применениепроекций позволяет уменьшить временную и вычислительнуюсложность нахождения сходства между текстами, причем потеряинформации является незначительной.Модель была апробирована на задаче повторного ранжированиярезультатов информационного поиска по сложным запросам.
На145нескольких наборах реальных интернет-данных из несколькихобластей, предоставленных поисковым механизмом Bing, былопродемонстрировано, что вычисление обобщения на уровне абзацевтекста (обобщение чащ разбора) позволяет улучшить релевантностьпоиска по сравнению с деревьями разбора и мешком слов.Было показано, что использование модели с введеннойоперациейобобщенияпредставлениеколлекциипозволяеттекстовыхпостроитьтаксономическоедокументовиприменитьпредставление в задаче иерархической кластеризации короткихтекстов, повысив качество кластеризации.
Кластеризация выполняетсяпутем построения решетки замкнутых структурных описаний текстов.В работе также было продемонстрировано, что предложеннаямодель применима к задаче классификации коротких текстов. Модельбыла реализована в виде численного метода, использующего ядерныефункции, определенные на деревьях. Было проведено сравнение двухвариантов обучения на текстах: Обучение на деревьях разбора для отдельных предложений(существующая модель текста), Обучение на деревьях разбора для отдельных предложений,дополненных расширенными деревьями разбора ‒ деревьями,полученныминаосновесемантическихсвязеймеждупредложениями абзаца (предложенная в исследовании модельтекста).Эксперименты продемонстрировали, что добавление новыхпризнаков без изменения схемы эксперимента улучшает качествоклассификации с использованием существующей модели и устраняетнедостатки, связанные с применением этой модели.146Также в работе были предложены модель и метод поискатождественных денотатов в прикладной онтологии (и формальномконтексте), основанные на применении анализа формальных понятий.Данный метод может использоваться, в частности, для построениясемантического отношения «та же сущность», используемого врассматриваемой в исследовании модели текстов.