Диссертация (1137218), страница 20
Текст из файла (страница 20)
Фильтрацияформальныхпонятийспомощьюиндексов(реализованы в виде скриптов):5.1Индексы экстенсиональной и интенсиональной устойчивости;5.2Индекс отделимости;5.3Разработанныйврамкахданногодиссертационногоисследования индекс DII, который предназначен для выявлениятождественных денотатов (см. главу 4).6. Сохранение результатов в виде отчетов.1405.2 Программный комплекс, предназначенный для обработкичащ разбора5.2.1 Архитектура комплексаДанный программный комплекс предназначен для обработкитекстовыхданных.Поклассификациипрограммныхсистем,приведенной в [14], он относится к системам специальногоназначения с открытой лицензией, которые могут быть использованыкак часть других систем.
Проект включает в себя следующиеоригинальные модули: Модуль для работы с чащами разбора: построение, обобщение,вычисление проекций и т.д.; Модуль для построения узорных структур на чащах разбора иих проекциях; Модульпоиска:нахождениерезультатовиповторноеранжирование; Модуль обучения на абзацах: формирование обучающей итестовой выборки, запуск процедуры обучения и т.д. Риторический парсер, основанный на правилах; Модуль для выделения коммуникативных действий.В проекте используются следующие технологии и программныесредства: OpenNLP/Stanford NLP парсеры [23,95] – для построениядеревьев синтаксического разбора; Stanford NLP Coreference – для разрешения анафор и построениякореферентных связей; Bing API – для реализации базового поиска;141 Apache SOLR – для обеспечения интеграции с другимипоисковыми системами; Риторический парсер Joty [124,125,126] – для автоматическогопостроения дискурсивных деревьев на основе машинногообучения. TK-Light [113] ‒ для обучения на деревьях с использованиемядер.Кодибиблиотекипроектадоступныпоссылкамиhttp://code.google.com/p/relevance-based-on-parse-treeshttps://github.com/bgalitsky/relevance-based-on-parse-trees.Ключевыефрагменты кода приведены в Приложениях.Архитектуракомплексапредусматриваетвозможностьинтеграции с другими системами.
В частности, он может бытьподключен к библиотеке Lucene. Кроме того, в состав системывключен обработчик запросов SOLR, позволяющий интегрировать еёв другие поисковые приложения, подключив к ним поиск понескольким предложениям с использованием чащ для проверки ростарелевантности.5.2.2 Модуль обработки чащ разбораДанный модуль предназначен для создания и обработки чащразбора. Он включает в себя ряд функциональных возможностей:1.
Построение чащи из текстового абзаца;2. Построение проекций чащи двух видов;3. Нахождение сходства между чащами и между проекциями;4. Экспорт чащи в виде графа;5. Вывод чащи в виде текста.1425.2.3 Ранжирование поисковых результатовДанный модуль обеспечивает переранжирование поисковыхрезультатов с учетом сходства чащ разбора результата и запроса.Модуль позволяет вычислять значение релевантности для каждогообобщения чащ запроса и ответа, а также определять итоговыйпорядок с учетом этого значения.5.2.4 Обучение на абзацахДанный модуль интегрирован с процедурой обучения на ядрахдля деревьев TK-Light.
Он позволяет готовить обучающую и тестовуювыборку, записывать результаты обучения в файлы.5.2.5 Модуль кластеризации с помощью решеток замкнутыхописанийМодулькластеризациипредставляетсобойреализациюалгоритма AddIntent[29] для текстовых данных. На вход алгоритмпринимаетнабортекстов.Вкачестверешеточнойоперациипересечения в алгоритме используется операция сходства на чащах(или на проекциях чащ, то есть на множествах расширенных групп).5.2.6 Риторический парсерДанный модуль предназначен для нахождения и обобщениярасширенных групп, основанных на риторических отношениях. Вэкспериментах по поиску и поиску с помощью классификации дляизвлеченияриторическихсвязейиспользовалсяоригинальныйриторический парсер, использующий правила. За основу приреализации парсера были взяты модели, описанные в работах [83,94].Припостроениигруппысначаланаходятсямаркеры,свидетельствующие о наличии риторического отношения (какправило, это глаголы), затем устанавливается связь между двумя143синтаксическими глагольными группами в исследуемом тексте,выделяются риторические отношения.В экспериментах по классификации технических документовиспользовался риторический парсер, разработанный Joty и др.[124,125,126].
Он основан на машинном обучении.5.2.7 Модуль для выявления и обработки коммуникативныхдействийМодульдействияпозволяетиихвыделятьпредикаты,втекстекоммуникативныеустанавливатьсвязимеждукоммуникативными действиями, а также выполнять обобщениеполучающихсярасширенныхгрупп.Длявыявлениякоммуникативных действий и построения связей на их основеиспользуется словарь коммуникативных действий, описанный вработе [73]. Для каждого термина из словаря используются 5бинарных свойств.5.2.8 Модуль для построения кореферентных связейПри автоматической обработке текстов на естественном языкеважно правильно сопоставлять несколько раз упомянутые объекты.Для разрешения кореференций (coreference resolution) в программномкомплексе используется модуль Coreference Resolution системыStanfordNLP[77,123].Онпредставляетсобойнабордетерминистических моделей, которые используют лексическую,синтаксическую и семантическую информацию, доступную на уровневсего документа.Алгоритм, применяемый в системе, состоит из трех основныхэтапов:1.
Обнаружение упоминаний (сущностей).1442. Разрешение анафор.3. Последующая обработка полученных данных.На первом этапе извлекаются сущности вместе с информацией оних, такой как пол и число. На следующем этапе уже проходитнепосредственноеразрешениекореференций,последовательноприменяется набор фильтров, начиная с наиболее точных. Постобработка позволяет, например, удалить упоминания, употребленныелишь единожды. На этапе извлечения сущностей используютсяориентированные на полноту фильтры, в то время как длянепосредственного разрешения кореференций уже нужна ориентацияна точность.На этапе разрешения кореференций используется следующийупорядоченный список фильтров:1. Выявление упоминаний2. Обработка семантической информации3. Точное совпадение строк4.
Релаксированное совпадение строк5. Совпадение структур6. Совпадение начал7. Совпадение имен собственных8. Выявление псевдонимов9. Релаксированное совпадение начал10. Лексические цепочки (синонимия и гипонимия)11. Фильтр местоимений145На этапе пост-обработки используются два фильтра: удаляютсякластеры с одним элементом и отбрасываются упоминания, которыевстречаются дальше в тексте в качестве аппозитива или соединения.146ЗаключениеВ данной работе были рассмотрены различные моделипредставления абзацев текста: мешок слов, деревья синтаксическогоразбора, чащи синтаксического разбора.
Также были рассмотренатеория решеток замкнутых описаний, введены понятия формальногоконтекста, онтологии, решетки формальных понятий, узорнойструктуры и проекции узорной структуры. Помимо этого были краткоописаны теории дискурсивного представления абзацев текста, такиекак теория риторических структур, теория речевых актов, теориядискурсивного представления текста и некоторые другие. Также былоприведеноописаниеметодовобучениянаструктурахсиспользованием ядерных функций.В работе была построена новая графовая модель текстов,использующая и обобщающая модель структурного синтактикодискурсивного представления текстового абзаца (чащу разбора).Модель позволяет описывать сходство текстовых абзацев в терминахобобщения их структурных графовых и древесных описаний.
Висследовании был предложен способ вычисления сходства междутекстами, основанный на операции обобщения соответствующих имчащ разбора. В работе были реализованы точное и приближенное (сиспользованием проекций) обобщение чащ разбора. Было предложенонесколько вариантов построения проекций представления и сходстваструктурных описаний. Было продемонстрировано, что применениепроекций позволяет уменьшить временную и вычислительнуюсложность нахождения сходства между текстами, причем потеряинформации является незначительной.Модель была применена в задаче повторного ранжированиярезультатов информационного поиска по сложным запросам. Был147разработанчисленныйметодповторногоранжирования,использующий предложенную модель. На нескольких наборахреальных интернет-данных из нескольких областей, предоставленныхпоисковыммеханизмомBing,былопродемонстрировано,чтовычисление обобщения на уровне абзацев текста (обобщение чащразбора) позволяет улучшить релевантность поиска по сравнению сдеревьями разбора и мешком слов.Было показано, что использование модели с введеннойоперациейобобщенияпредставлениеколлекциипозволяетпостроитьтекстовыхтаксономическоедокументовиприменитьпредставление в задаче иерархической кластеризации короткихтекстов, повысив качество кластеризации.