Диссертация (1137507), страница 15
Текст из файла (страница 15)
В некоторых случаях информации о падеже может бытьдостаточно для определения семантической роли того или иного актанта.Рассмотрим пример на Рисунок 32, в котором порядок слов и лексическаяинформация полностью удалены и единственная доступная информация – это99падеж и часть речи выбранного слова. Этому примеру может соответствоватьпредложение “Директор купил синюю машину”.Рисунок 32: Представление предложения на основе информации о части речи ипадежеЧеловеку, знакомому с терминологией, не составит труда определить, чтоузел-существительное в именительном падеже – это Агенс или Покупатель, асуществительное в винительном падеже – Товар.В то же время система, которая опиралась бы только на информацию опадеже, столкнулась бы с трудностями по крайней мере в двух случаях.
Вопервых, представим себе, что на вход системы поступило достаточно длинноепредложение, включающее в себя несколько клауз (“Получив премию,директор поехал в салон и купил себе синюю машину”), см. Рис. 33:Рисунок 33: Недостаточность представления на основе части речи и падежа100В этом случае падежной информации для выполнения нашей задачинедостаточно. Кроме того, опираясь лишь на информацию о падеже и частиречи, мы не можем однозначно определить, какое именно главное слововызвало появление того или иного падежного маркера.
Эта информацияпринадлежит к более высокому уровню анализа и в рамках нашей системымоделируется с помощью свойства "путь". Отметим, что в качествеальтернативы свойству "путь" мы могли бы использовать свойства, основанныена порядке слов, и отталкиваться от эвристического правила, согласнокоторому зависимое слово находится ближе к главному, что соответствуетпринципу проективности зависимых элементов.Вторая сложность связана с тем, что в действительности информация осемантической роли слова зачастую кодируется не самим падежом, акомбинацией предлога и падежа. Можно было бы предположить, что длямаркирования роли языку достаточно предлога, однако, например, в русскомязыке падеж существительного определяется предлогом неоднозначно, и одини тот же предлог с существительными в разных падежах может кодироватьразные семантические роли.Используя комбинацию предлога и падежа, мы можем добитьсядостаточновысокойописательнойточностиприописанииролевогомаркирования слов, находящихся с предикатом в одной клаузе.
Учитывая, чтоподобное маркирование является хорошим индикатором для нашей задачи,мы включили в набор свойств помимо непосредственно падежа какморфологической характеристики также "финский падеж". Этот термин мыиспользуемнеформальнодляобозначениявыбранногонамитипамаркирования. Своим происхождением "финский падеж" обязан финноугорским языкам, в которых семантика падежных показателей включает в себязначения, которые в русском и многих других языках выражаются предлогами.101"Финскийпадеж"являетсяморфо-синтаксическойхарактеристикойипредставляет собой конструкцию из предлога и падежного показателязависимого имени. В большинстве случаев это свойство может быть выделенотолько для имён существительных, в случае же, когда падеж или предлогнедоступны, свойство принимает специальное "пустое" значение (дляклассификатора это значение ничем принципиально не отличается от всехостальных).В завершение отметим, что использование комбинации предлога ипадежа не решает проблемы синтаксически удалённых актантов и можетпривести к ложным срабатываниям в тех случаях, когда целевое слово являетсязависимым некоторого другого слова, а не непосредственно предиката.
В связис этим мы можем ожидать, что свойство "финский падеж" будет наиболееэффективно срабатывать в связке со свойством "путь", контролирующимдистанцию, а также с лексическими свойствами (например, "кластер"),накладывающимиограниченияналексическоезаполнениеактантоввыбранного предиката. В этом случае комбинация падежа и предлога играетважную уточняющую роль и, как мы увидим далее, оказывается болееполезной, нежели изолированный падеж.Итак, мы рассмотрели свойства, на основании которых системапринимает решение о приписании семантических ролей. Мы используембогатый и лингвистически мотивированный набор свойств, которые мыизвлекаем как в результате предобработки входных предложений (например,падеж или синтаксический путь), так и в результате обращения к внешнимресурсам(например,кластернаялексическаямодель).Обобщая,использованные свойства можно разделить на две группы: синтаксические исемантические свойства.
Вклад каждой из групп, а также отдельных свойств, вкачество классификации оценивается по результатам применения алгоритмамашинного обучения на основе различных комбинаций выбранных свойств.102Мы ещё вернемся к этому вопросу, когда будем подробно рассматриватьрезультаты работы системы, а сейчас перейдём к описанию завершающегокомпонента нашей системы – модуля глобальной оптимизации.103II.4 Глобальная оптимизация разметки актантовII.4.1 Задача глобальной оптимизации ролейИтак, к настоящему моменту наша система представляет локальныйклассификатор, который на основе свойств приписывает каждому узлусинтаксического дерева зависимостей метку роли или специальную метку,обозначающую, что данный узел никакой ролевой нагрузки не несёт.Присвоение роли каждому узлу дерева происходит независимо, другимисловами, при принятии решения о том, какую роль получает данный узел,классификатор не использует информацию о своих решениях для предыдущихузлов.
Такая конфигурация делает возможной ситуацию, в которой несколькоузлов в предложении получают одинаковую метку роли.Существует несколько причин, по которым мы хотели бы подобнойситуации избежать. Во-первых, приписание одной и той же роли двум и болееузлам противоречит одному из основных принципов теории семантическихролей, а именно, требованию, чтобы каждая роль заполнялась только однимактантом. Так, например, теория семантических ролей объясняет, почемуневозможны конструкции типа *Петр ударил по столу молотком кулаком и*Петр едет на юг на восток, в то время как конструкция Петр едет намашине на юг на конференцию возможна (представленное здесь явлениеназывается расщеплением актантов, см. [Апресян, 2006]).В случае когда роль действительно заполняется несколькими реальнымиактантами, например, в сочинительных конструкциях, должен быть выбрантолько один из них, или же они должны быть объединены в группу и этот фактдолжен быть маркирован синтаксически (например, сочинением узлов).Если наша система будет присваивать одну и ту же роль несколькимузлам, её результат будет затруднительно интерпретировать в рамках теориисемантических ролей.104Кроме формальных причин избегать подобных ситуаций, есть причины ипрактического характера.
Допущение о независимости ролей является оченьсерьёзным упрощением задачи. В действительности мы хотим, чтобы системане просто приписала каждому узлу уникальную семантическую роль, но ичтобы набор приписанных ролей для всего предложения был наилучшим средивозможных для данного классификатора. В качестве иллюстрации представимсебе следующую ситуацию. Допустим, что мы выполняем анализ предложения“Петр купил яблоко за пять рублей” и наш ролевой инвентарь включает в себяроли X,Y и Z. В скобках укажем веса, которые классификатор приписываеткаждому из классов в зависимости от свойств узла. Итоговое решениеклассификатора состоит в том, чтобы выбрать для каждого узла класс снаибольшим весом.XYZПетр0.90.10.1яблоко0.80.60.1за0.80.10.6рубль0.70.50.2Таблица 3: Распределение весов при классификацииКак мы можем наблюдать, класс X имеет стабильно более высокий вес,чем остальные два класса, и поэтому будет приписан всем узлам.
В результатемы не только получим несколько узлов с одной семантической ролью, чтозапрещено, но и потеряем информацию о двух других ролях. Мы можемпотребовать, чтобы каждая семантическая роль встречалась только один раз,но в этом случае возникает вопрос, какой именно из узлов, или, в общемслучае, какую комбинацию узлов следует выбрать. Логичным будет105предположить, что в случае, когда узлы нам уже даны, наилучшим решениембудетвыбратькомбинациюролей,котораямаксимизировалабы"уверенность" классификатора в принятых решениях.Решение данной задачи путём расчёта целевого значения для всехвозможных вариантов приписания ролей крайне затратно с вычислительнойточки зрения. Так, количество возможных разборов приведённого вышепримера равно 64, или, в общем случае, , где – количество узлов всинтаксическом дереве предложении, а – количество ролей, доступных дляданной конструкции.
Однако существуют более эффективные методы решенияэтой задачи, один из которых– метод целочисленного линейногопрограммирования – был использован для разработки рассматриваемойсистемы. Описанию этого метода посвящён следующий раздел.II.4.2 Линейное программирование: принцип работыЦелочисленное программирование (Integer linear programming, ILP) –частный случай линейного программирования.
Линейное программирование– это парадигма, предназначенная для решения задач, которые могут бытьпредставленны в следующей форме. Предположим, что нам дан наборпеременных1 , 2 , … ∈ .Необходимомаксимизироватьилиминимизировать целевую линейную функцию () = 1 1 + 2 2 + ⋯ + сучетом набора линейных ограничений вида 11 1 + 12 2 ≥ 1 , 21 1 +22 2 = 2 и т.д., при этом все переменные принимают только положительныезначения:Максимизировать: 1 1 + 2 2С учетом ограничений:11 1 + 12 2 ≥ 121 1 + 22 2 ≥ 210631 1 + 32 2 ≥ 31 ≥ 0, 2 ≥ 0Задача может быть переформулирована в векторной форме:Максимизировать: С учетом ограничений: ≤ ; ≥ 0В качестве классической иллюстрации задачи, решаемой с помощьюлинейного программирования, приводят задачу об оптимизации прибыли приусловии ограниченных ресурсов. Предположим, что фермер хочет засеятьплощадь в 8 га пшеницей и кукурузой.
При этом с каждого гектара, засеянногопшеницей, он получает 5000 рублей прибыли, а за каждый гектар кукурузы —3000 рублей. Количество пестицидов, которые он может использовать,ограничено 10 литрами. При этом на 1 гектар пшеницы требуется 2 литрапестицида, а на 1 гектар кукурузы — только один литр. Необходимоопределить, какую площадь требуется засеять картофелем, а какую – пшеном,чтобы максимизировать прибыль. Сформулируем задачу в терминах ЛП: гектаров пшеницы, гектаров кукурузыМаксимизировать: 5000 + 3000С учетом ограничений:Ограничение на пестициды 2 + 1 ≤ 10Ограничение на площадь+ ≤8107Рисунок 34: Зона допустимых решений в линейном программированииЗона, отмеченная на Рисунок 344 белым, определяется заданнымиограничениями и называется зоной допустимых решений.