Диссертация (1137507), страница 8
Текст из файла (страница 8)
Таким образом,автоматическая система должна не только выделять роли, но и определятьфрейм для выбранного предиката, что не всегда является тривиальнойзадачей. Поскольку разметка примеров FrameNet имеет в первую очередьиллюстративную цель, разработчики ресурса заинтересованы в том, чтобыописать как можно больше фреймов и продемонстрировать различия междуними. В результате этого задача автоматической разметки актантов сиспользованием ролей FrameNet усложняется.PropBank и подобные ему ресурсы лишены этого недостатка. В них ролиразмечаются для каждого предиката независимо от его лексического значения,при этом дополнительно существует общий набор модификаторов, семантикакоторых однозначна и легко поддаётся интерпретации.
Теряя способность ксемантическим обобщениям, системы на основе PropBank получают взаменбольшую строгость исходного материала. Кроме того, подобные системылучше поддаются оценке, т.к. различия между предикатно-специфичнымиролями более очевидны для эксперта и разметчика тестового материала.Вопрос о предпочтении того или иного подхода не имеет однозначногоответа, и конечный выбор зависит в большой степени от контекста, в которомпланируется проводить исследование или использовать разработаннуюсистему, а также от того, какие ресурсы доступны в момент исследования дляцелевого языка.К вопросу выбора между FrameNet-подобной и PropBank-подобнойпарадигмой примыкает вопрос о том, каким образом осуществляется работа снеизвестными предикатами, которые не описаны в исходном ресурсе.
В случаекогда система разрабатывается на основе абстрактных ролей, у нас есть47возможность предсказывать роли актантов даже в отсутствие предиката путёмпостроения модели для каждой отдельной роли. Например, система можетнаучиться определять роль "Инструмент" или роль "Товар" на основетипичных свойств актантов, заполняющих эту роль. В то же время следуетпонимать, что возможности генерализации в данном случае ограничены, т.к.некоторые различия выражаются только на уровне синтаксиса, например, дляролей "Покупатель" и "Продавец" лексическое наполнение может быть оченьсходным. В случае же конкретных, предикатно-специфических ролей работа снеизвестными предикатами затрудняется (однако модификаторы, общие длявсех предикатов могут быть успешно определены). Если абстрактные ролипозволяют нам надеяться на некоторое "постоянство" в присвоении ролейактантам неизвестного предиката (так, например, мы можем рассчитывать, чтосемантика роли "Агенс" будет сходной для различных предикатов), то в случаев конкретными ролями такой гарантии мы не имеем (роль Arg0 может иметьсамые разные соответствия на уровне абстрактных ролей).Следующий важный момент, определяющий специфику постановкизадачи – включается ли определение конкретного значения предиката в задачуавтоматической разметки актантов или же предполагается, что его значениедано изначально и поступает из модуля предобработки.
Несмотря на то, чтосуществуют работы, выполняющие помимо классификации актантов такжеопределение значения предиката, в большинстве исследований эта задачасправедливоотноситсякобластиснятиялексической/глагольнойнеоднозначности и подробно не рассматривается. Для того чтобы системамогла быть применена на практике, неоднозначность должна быть снята,поэтому в промышленных системах используются готовые компоненты итехники для снятия неоднозначности.
В исследовательских же системахзачастую принимается такая установка, при которой конкрентные значенияпредикатов даны системе изначально, что позволяет сконцентрировать усилия48на разработке решения задачи автоматического выделения ролей и, чтосущественно,впоследствииоцениватькачествоработыименноSRL-компонента.Формулировка задачи зависит и от того, что именно является объектомклассификации.
Решение в данном случае определяется тем, какой именноэлемент разбираемого предложения мы считаем носителем семантическойроли. Как правило, в современных системах носителем роли объявляетсясоставляющая или узел дерева зависимостей. В то же время, в корпусах,сопутствующих SRL-ресурсам, зачастую используется разметка по отрезкамтекста, как в следующем примере.Newspapers reporting a briefing by parliament speaker Ahmed alSaadoum today,did not NAME the official involved of his function.Пример 11: Несоответствие разметки синтаксической структуре(FrameNet)Как можно видеть из этого примера, используемая в данном случаеразметка не соответствует ни делению на зависимости, ни делению насоставляющие. Подобное решение мотивируется нежеланием привязыватьразметку по семантическим ролям к тому или иному синтаксическомуформализму,однакоприводиткдополнительнымтрудностямприавтоматической классификации актантов.
Так, в случаях, когда оценка качествасистемы производится автоматически на основе тестовой выборки, системадолжна не только выполнять свою прямую задачу, но и успешно "имитировать"стиль разметки, принятый при аннотации выбранного ресурса. Автоматическаяразметка актантов может быть сформулирована как задача разметкипоследовательностей, в этом случае система должна для каждого актантаопределить его начало и конец, а затем приписать этому актанту роль.
Однако49более естественным способом формулировки задачи SRL в последние годысчитается разметка на основе узлов в дереве зависимостей, при которойклассификации подвергается только один объект, а именно, главный узелподдерева, соответствующего выбранному аргументу. Объединённые системы,которые производят синтаксический и семантический анализ одновременно(например, [Lluís, Carreras, Màrquez, 2013]), также оперируют только однимсловом-узлом, а результат их работы – дерево, в котором узлы связанысемантическими и синтаксическими отношениями. Тем не менее, в случае,когда задача сформулирована в терминах узлов, а не отрезков, возникаетпроблема поиска соответствия между отрезком в исходной разметке и узломсинтаксического дерева.
Как правило, эта проблема решается с помощьюэвристических правил.Наконец, в архитектурном плане системы можно разделить на два классав зависимости от того, каким образом выполняется классификация актантов.Системы первого типа сначала определяют, является ли объект классификациисемантическим аргументом выбранного предиката, а затем приписывают емуконкретнуюроль.Системывтороготипавыполняютэтиоперацииодновременно.Системы также различаются в зависимости от того, производится лиглобальная оптимизация результатов классификации, т. е., влияют ли решенияклассификатора относительно слов в предложении друг на друга, или жеразметка для каждого слова и каждого актанта выполняется независимо.Итак, мы рассмотрели основные параметры, по которым системыавтоматической обработки актантов различаются между собой.
Рассмотреннаяклассификация позволяет более четко сформулировать задачу автоматическойразметки актантов в том виде, в котором она будет решаться в рамках данногоисследования.50Мы интерпретируем SRL как задачуклассификации на основепредикатно-специфических ролей. В общем виде задача классификацииформулируется следующим образом. Необходимо построить решающуюфункцию вида () = , где – объект классификации или экземпляр, а –метка класса. Функция строится на основе тренировочной выборки ,состоящей из набора экземпляров, класс которых известен, с помощьюалгоритма, задача которого – подобрать функцию из заранее заданногосемейства функций, которая наиболее точно описывала бы тренировочныеданные. Экземпляры описываются в терминах свойств или признаков(1 , 2 … ) ,иконечнаязадачаобучения–построитьфункцию(1 , 2 , … ) = ′ , которая правильно предсказывает класс для новых, ранеене представленных классификатору объектов.
Множество доступных в рамкахвыбранной задачи признаков формирует признаковое пространство. Вкачестве простой иллюстрации задачи классификации приведём пример, вкотором объекты – это точки в признаковом пространстве координат, а класс –это цвет точки. Обучающая выборка представлена на Рис. 2:Рисунок 2: Задача классификации в двумерном пространстве51В процессе обучения строится решающая функция (представленная нарисунке линией), которая делит признаковое пространство на части. Затем,когда система получает на вход новый экземпляр, эта функция используетсядля того, чтобы определить, к какому классу этот экземпляр принадлежит.
Какправило, для оценки систем машинного обучения исходные данные,снабжённыеметкамиклассов,случайнымобразомразбиваютсянанепересекающиеся тренировочную и тестовую выборки. Тренировочнаявыборка используется для обучения модели. Тестовая выборка содержитновые экземпляры, ранее не представленные классификатору (однакосодержащие"правильные"меткиклассов).Применивобученныйклассификатор к тестовой выборке, можно затем сравнить результат работыклассификатора с реальными значениями классов и оценить качество работыклассификатора.В нашем случае объектом классификации, или экземпляром, мы будемсчитать узел в дереве зависимостей. Нам показалось разумным остановитьвыбор на "узловой" интерпретации как более разработанной в современнойлитературе и более подходящей для русского языка с учётом доступныхресурсовпредобработки.Всоответствиисформализмомдеревьевзависимостей, каждому узлу соответствует одно слово предложения.