Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 46
Текст из файла (страница 46)
Они позволяют легко анализировать результаты обработкипользователем или разработчиком, игнорировать не относящуюся к задаче разметку ииспользовать стандартные инструменты для обработки. Но основная проблема этогоподхода – представление сложных и пересекающихся структур. Например, такиеструктуры могут возникнуть вследствие неоднозначности анализа текста на одном изэтапов обработки. Представление таких структур значительно усложняетиспользуемую схему разметки, что сводит на нет преимущества от использованиястандартных программ и анализируемости человеком.§ 3.3.Лингвистические аннотацииАннотации представляют из себя информацию о лингвистических единицах,хранящуюся отдельно от текста и ссылающуюся на его участки. Каждая аннотациякак правило содержит тип и набор атрибутов, описывающих ее характеристики. Нижеприведен пример набора аннотаций, соответствующего вышеприведенной разметке:Использование аннотаций не имеет недостатков, связанных с представлениемпересекающихся лингвистических единиц и ограничений на поверхностную модельобработки.
Кроме того, информация из аннотаций может быть преобразована в/изразметку, что, например, успешно реализовано в системе GATE. Однако, стоитзаметить, что как подходы, привязанные к конкретному формализму ограничиваютиспользование компонентов, основанных на других формализмах, подходы,основанные на аннотациях усложняют интеграцию компонентов глубокого анализа,требующих некоторых более сложных структур данных.
Это ограничение приводит кнеобходимости разработки специальных средств интеграции, например как в системеWhiteboard.145Начиная с проекта TIPSTER (см. в §4.5.2) аннотации использовались достаточношироко в проектах по извлечению информации, однако используемые для ихпредставления форматы были несовместимы, что привело к попыткам созданияформализмов и стандартов, позволяющих обобщить различные подходы к ихпредставлению.Графы аннотацийГрафы аннотаций [4; 5] представляют из себя формальную систему,предложенную в 1999 году для унификации различных форматов представленияаннотаций.
Система позволяет аннотировать различные сигналы (не обязательнотекстовые) в рамках одного набора данных, имеющие независимые шкалы времени.Основу системы составляет понятие временной шкалы, соответствующейсигналу на которой могут быть отмечены позиции. На каждой временной шкалеотмечается некоторое множество узлов, представляющих неаннотируемые участки.Каждая аннотация имеет начальный и конечный узел и аннотирует промежутокмежду ними.Таким образом, аннотации и узлы образуют ориентированный граф в котороманнотации можно направленны в сторону узлов с большей позицией.
Такой графявляется ациклическими по построению, кроме того, система требует, чтобы в графеаннотаций не существовало узлов, не инцидентных каким-либо аннотациям.При этом, каждая аннотация имеет тип и содержимое, представленное в виденабора пар имя-значение.Взаимосвязи объектов, формирующих систему можно изобразить следующимобразом:146Модель ATLASМодель ATLAS [4] (Architecture and Tools for Linguistics Analysis Systems)возникла в 2000 году как обобщение графов аннотаций в двух основныхнаправлениях:Возможность наличия нескольких размерностей в пространстве аннотируемогосигнала - например, при аннотировании участков изображения или видео;Представление нескольких наборов аннотаций для одного и того же сигнала например, для разделения аннотаций, создаваемых компонентами различногоуровня анализа;Расширенная схема взаимосвязей объектов выглядит следующим образом:В новой модели разделены понятия региона, который представляет из себяпросто некоторый участок сигнала (в одномерном случае - отрезок) и аннотации,которая представляет из себя информацию, приписанную региону и состоящую изтипа и набора признаков.
Авторы представляют аннотации, как «отношения междурегионами и (структурными) метками».§ 3.4.Представления, основанные на абстракцииСтруктуры признаков являются распространенным средством для представлениялингвистической информации и ведут свою историю от фреймов. Многиеформализмы для осуществления анализа базируются на их использовании.Структуры признаков[28]Структура признаков представляет собой набор пар «признак-значение», гдезначение может быть атомарным или сложным - другой структурой признаков,списком или множеством. Структуры признаков обычно записываются в виде матрицследующего вида:Приведенная матрица описывает структуру, имеющую три признака: f, g и h,причем значением первого является структура, имеющая признак q со147значением a, в то время как оставшиеся два признака имеют атомарные значения c и dсоответственно.Между структурами признаков может быть задано отношение частичногопорядка, называемое отношением категоризации (subsumption) и связывающее менееобщие структуры (несущие меньше информации) с более общими (несущими большеинформации).Структура признаков α считается более общей, чем β если они идентичны илимножество признаков α является подмножеством множества признаков β, а значениясоответствующих признаков в α более общие.
Например, среди следующих структурпризнаков A и B являются более общими, чем E, однако не связаны друг с другомотношением категоризации.ABEДля структур признаков определена операция унификации, которая возвращаетнаиболее общую структуру, обладающую всеми признаками как первой, так и второй,причем для каждого из признаков его значение так же является наиболее общим.Например, результатом унификации вышеприведенной структуры ибудет являться структура:Другой важной особенностью формализма является возможность представленияссылок на один и тот же элемент с помощью введение переменных. Более того,переменные могут ссылаться на элемент, значение которого не определено(полностью или частично).
Например:Здесь признаки f и g ссылаются на одно и то же значение - структуру.При этом признак h и признак q во вложенной структуре так же ссылаются на один итот же элемент, хотя его значение и не определено. Возможность представленияссылок на неопределенные значения позволяет значительно расширить возможностиунификацииструктурпризнаков.Например,результатомунификациивышеописанной структуры иявляется структура:На основе унификации для структур признаков были разработаны механизмылогичского вывода, аналогичные используемым для утверждений логики первогопорядка (например, метод резолюций[14]).148Структуры признаков с переменными могут быть представлены какациклические ориентированные графы, где ребра помечены признаками, а вершиныпредставляют значения.Для структур признаков часто используется запись значения, получаемого попути признаков, например ⟨Xfq⟩, обозначающая значения признака q признака fструктуры X.Типизированные структуры признаковТипизированные структуры признаков получены как расширение формализмаструктур признаков за счет приписывания признакам типов и использованияинформации об отношениях между типами во время унификации.Отношения между типами обычно задаются в виде отношения частичногопорядка “тип-подтип”.Например, если имеется следующая иерархия типов:То структурыимогут быть унифицированы - результатом будтструктура, поскольку f является наиболее общим подтипом a и b.§ 3.5.Недоспецифицированные представленияАнализ текста на естественном языке в рамках одного их этапов обработки частоне может быть выполнен однозначно в силу того, что информация, необходимая дляразрешения неоднозначности может находится на более глубоких уровнях.
Одним изподходов обработки таких ситуаций является выдача этапом обработки множестванаиболее вероятных результатов анализа. Однако, использование такого подходаприводит к значительным вычислительным затратам, а оптимизация путемотбрасывания части результатов приводит к потере части информации и возможностиотсутствия допустимых интерпретаций на одном из последующих этапов.Другимподходомявляетсяиспользованиенедоспецифицированныхпредставлений, в рамках которых информация представляется таким образом, чтобыизбежать выбора между различными вариантами. В основе недоспецифицированныхформализмов лежит идея того, что каждый этап обработки текста на естественномязыке предоставляет в качестве результата семантическую информацию в неполнойформе.149Minimal Recursion SemanticВ принципе, использование структур признаков уже позволяет представлятьинформацию в недоспецифицированной форме, путем наличия признаков беззначений, с которыми могут быть связаны переменные.
То есть такое представлениепозволяет недоспецифицировать значения признаков. Однако, во многих случаяхнеоднозначность имеет другую форму: например, имеются структуры признаков A иB и неоднозначность состоит в том вложена ли A в B или наоборот.
Такаянеоднозначность структуры не может быть представлена на основе структурпризнаков.В качестве решения, позволяющего представлять недоспецифицированностьструктуры был предложен формализм MRS [9] (Minimal Recursion Semantic).Основная идея формализма состоит в преобразовании вложенной структуры вплоскую. Таким образом, вложенная структура признаков (или предиктов)преобразуется в множество структур (которые могут быть объединены символамиконьюнкции).Robust Minimal Recursion SemanticФормализм RMRS [8] (Robust Minimal Recursion Semantic) является развитиемMRS, основное отличие которого состоит в том, что структуры из несколькихпризнаков (многоаргументные предикаты) разбиваются на однопризнаковыеструктуры (бинарные предикаты).Если рассматривать представление структур признаков в виде ориентированныхграфов, такое представление соответствует хранению множества ребер графа, где длякаждого ребра указаны начальная и конечная вершина, причем такие указания могутбыть представлены как константами, так и переменными.
При этом в представлениимогут быть заданы дополнительные ограничения, например требования различностизначения некоторых переменных.150Глава 4.Архитектура инструментальных ЕЯ-системРазличные ЕЯ-системы имеют различную архитектуру, однако практически всев той или иной мере предполагают разбиение на независимые модули (часть изкоторых может быть создана сторонними разработчиками), которые можно в общемназвать компонентами. Это позволяет говорит об общих свойствах систем, связанныхс их компонентной организацией, таких как: особенности понимания сущностикомпонентов, задачи, которые выполняются ими, схема и средства взаимодействиямежду ними, порядок работы различных компонентов при функционированиисистемы в целом.Кроме того, в соответствии с [30], архитектура ЕЯ-системы должна иметь триосновных слоя:Слой взаимодействия (communication layer), который описываетвзаимодействия между различными компонентами в системе для решениязадачи обработки текста;Слой данных (data layer), включающий различные форматы представленияданных и правила их преобразования между компонентами;Слой интепретации (interpretation layer), описывающий то, как компонентыинтерпретируют те или иные данные в процессе своей работы.Слои данных и интерпретации соответствуют представлению данных, которыебыли рассмотрены в 4.3, здесь же наиболее важен слой взаимодействия, содержащийотношения между различными компонентами.§ 4.1.Компонентная организацияС точки зрения организации взаимодействия компонентов стоит начать склассификации, предложенной в [30], которая подразделяет системы на трикатегории:Каждый компонент взаимодействует непосредственно с другим компонентом.В этом случае все компоненты должны иметь информацию о средевыполнения, формате данных и их интерпретации;Компоненты взаимодействуют через центральный координатор, который беретна себя ответственность за распределение задач и преобразование данныхмежду различными форматами;Компоненты работают с некоторым общим хранилищем данных, не имеяинформации о среде выполнения.Однако, приведенная классификация весьма приблизительна, каждая изкатегорий должна быть уточнена.