Диссертация (1137507), страница 7
Текст из файла (страница 7)
Авторы приводятпоказатели качества для своей системы, однако оценивают это качество накорпусе, размеченном вручную, и только на предикатах, для которыхпредставлены семантические правила, что отличается от стандартнойпроцедуры оценки систем автоматической разметки актантов. Сравнитькачество подхода, основанного на правилах, и подхода, основанного намашинном обучении, в этом контексте не представляется возможным, т.к.семантико-синтаксический парсер опирается на правила. Тем не менее, намкажется, что предложенная технология имеет хорошие перспективы, в томчисле с точки зрения практического применения.
В то же время, кажетсязатруднительным сравнить результаты, полученные в данной работе, с нашимииз-за разницы в подходах и в исходном материале.Для русского языка также существует несколько систем на основе правил(например, [Anisimovich и др., 2012] и [Ермаков, Плешко, 2009]), а такжесистем извлечения фактов, в том числе позволяющих генерировать шаблоныописания событий на основе больших массивов неразмеченных данных.
Так, вработе [Котельников, Лукашевич, 2012] описан метод извлечения шаблонов изтекстов на основе целевых слов и примера заполнения участников ситуации.Система находит описания выбранной ситуации в текстах и на основе примеровреализации конкретных участников события выделяет шаблоны, которые затеммогут быть использованы для извлечения информации о новых ситуациях.Подобные системы имеют высокую практическую ценность, однако решаемаяв рамках этих исследований задача отличается от нашей, т. к. системы неопираются на лексикографические ресурсы и не имеют своей цельюизвлечение семантических ролей в лингвистическом понимании.40Существует по крайней мере две причины, по которым автоматическаяклассификация актантов практически не разрабатывается для русского языка втом виде, в котором она реализуется в западной компьютерной лингвистике.Во-первых, автоматическая классификация актантов – ресурсоёмкаяпроцедура в плане требований к предварительной обработке документов.
Какуже было сказано выше, синтаксическая и лексико-семантическая информацияочень важна для автоматической классификации актантов. Посколькуавтоматическая классификация актантов находится в самом конце цепочкиобработки текста, она аккумулирует в себе ошибки всех предыдущих этапов,начиная от разделения текста на слова и заканчивая синтаксическим анализоми анализом анафоры. В последние годы инструменты для предобработкитекстов для русского языка активно развиваются. Так, в рамках конференции"Диалог" в 2010 году состоялось соревнование морфологических анализаторов[Ляшевская и др., 2010], в 2012 году прошло соревнование синтаксическихпарсеров [Толдова и др., 2012], в 2014 году – соревнование модулейразрешения анафорической неоднозначности [Toldova и др., 2014], а в 2015году прошло соревнование систем по определению семантической близостислов [Panchenko и др., 2015].
Отрасль активно развивается, и можно надеяться,что в ближайшее время в руках исследователей окажутся все необходимыеинструменты для семантического анализа текстов. В то же время следуетотметить, что отдельной задачей является обеспечение совместимости междурезультатамиработыразличныхморфологическихисинтаксическиханализаторов.
По причине отсутствия общепринятого стандарта для входных ивыходных данных (как с точки зрения формата, так и с концептуальной точкизрения), зачастую оказывается проблематичным сконструировать полнуюцепочку предварительной обработки для решения той или иной задачи.Существуют примеры подобной унификации для английского и немецкого41языков [Castilho de, Gurevych, 2014], и мы надеемся, что в ближайшем будущемэта проблема будет решена и для русского языка.Вторая причина, по которой, на наш взгляд, рассматриваемая задача непользуется большой популярностью на русском материале, состоит вотсутствии подходящего ресурса, на котором могло бы быть выполненомашинное обучение.
На данный момент в разработке находится ресурсFrameBank [Lyashevskaya, Kashkin 2015], который предоставляет корпусконструкций, размеченный по семантическим ролям. В последующих главахнашей работы мы остановимся на этом ресурсе более подробно, т.к. именно ониспользуется в качестве основы для обучения нашей системы. Учитыая, что дляавтоматической разметки актантов объём тренировочных данных имеетрешающее значение, и что расширение подобного ресурса – трудоёмкаязадача, кажется перспективным опробовать методы частичного обучения сучителем, разработанные для английского языка, для автоматическогорасширения корпуса FrameBank. Например, одним из направлений, котороемогло бы значительно ускорить разработку ресурса FrameBank и расширитьстепень его применимости, могла бы стать упомянутая выше проекцияаннотаций как на внешние неразмеченные корпуса, так и на синтаксическийкорпус СинТагРус.
Можно рассматривать это как комбинацию подходов,предложенных [Смирнов, Shelmanov, 2014] и [Котельников, Лукашевич, 2012], вкоторой правила для извлечения примера выводятся на основе обучающегокорпуса FrameBank или аналогичного ресурса. Также кажется перспективнымиспользование методов машинного обучения без учителя, однако в данномслучае мы попадаем в зависимость от качества предобработки, и пока кприменению этих подходов на русском материале, как нам кажется, следуетотноситься с осторожностью.Выше мы постарались поместить наше исследование в теоретический иприкладной контекст и указать на наиболее важные и интересные, с нашей42точки зрения, аспекты автоматической классификации актантов. Системаавтоматического выделения семантических ролей, разработанная в рамкахдиссертационного исследования, является первой системой для русскогоязыка, основанной на ресурсе FrameBank. Следующие главы диссертации будутпосвященыописаниюиобоснованиюмоделей,использованныхдляразработки системы, а также процедуре оценки ее работы и анализу иполученных с её помощью результатов.43II.
Система автоматическойразметки актантов для русскогоязыкаII.1 Постановка задачиСуществует несколько вариантов постановки задачи автоматическойклассификации актантов и оценки качества результирующей системы. Помиморазделения на системы, работающие с высокоуровневым инвентарёмFrameNet, и системы, основанные на предикатно-специфических ролях,наподобие PropBank, существует также несколько важных параметров,которые, не будучи чётко артикулированными, затрудняют пониманиепринципов работы системы и интерпретацию полученных результатов. В этойглаве мы опишем наиболее распространённые варианты формулировки задачиSRL, а также формально специфицируем ту задачу, которая будет решаться врамках настоящего исследования.Итак, первое и наиболее важное концептуальное разделение междусистемами автоматической классификации актантов – это разделение насистемы, оперирующие абстрактными высокоуровневыми ролями, т.е.44ролями из фиксированного абстрактного инвентаря наподобие FrameNet иVerbnet [Das, 2010; Gildea, Jurafsky, 2000], и системы, выделяющие предикатноспецифические роли, где роли уникальны для каждого предиката [Johansson,Nugues, 2008].
Для английского языка в качестве исходных данных в первомслучае используется система и корпус FrameNet, в котором семантические ролиорганизованы в иерархию, и разбор предложения, выполненный системой SRL,может выглядеть следующим образом:[Abby]Buyer bought [a car]Goods [from Robin]Seller for [$5000]Money.Пример 8: Разбор предложения в формализме FrameNetСистемывтороготипа,напротив,приписываютсемантическимаргументам конкретные, предикатно-специфические роли, и основываются, какправило, на корпусе PropBank. В этом случае результат обработки предложенияможет выглядеть так:[Abby]Arg0 bought [a car]Arg1 [from Robin]Arg2 for [$5000]Arg3.Пример 9: Разбор предложения в формализме PropBankКак правило, при разработке ресурсов для других языков создателиопираются на опыт либо FrameNet, либо PropBank, и результирующие ресурсыпо своим свойствам оказываются похожи на свой англоязычный прототип.Каждый из подходов имеет свои преимущества и недостатки с точки зренияавтоматической классификации актантов.Так, абстрактные роли FrameNet могут быть использованы для описаниянескольких предикатов, а актанты, маркированные этими ролями, часто имеютобщие семантические свойства, что упрощает присвоение семантической роли45вне зависимости от выбранного метода автоматической классификации.
Длянаглядности рассмотрим следующий синтетический пример.[Петя]Покупатель купил [машину]Товар → Вася продал машинуПример 10: Общие роли в рамках фреймаБлагодаря тому, что системе заранее известно, что предикаты "купить" и"продать" относятся к одному и тому же фрейму и разделяют один наборактантов, на этапе автоматического анализа система будет принимать решениене о том, соответствует ли в лексическом отношении тот или иной актанттипичному заполнителю выбранной роли для выбранного предиката, а о том,насколько вероятно, что данный актант выражает выбранную абстрактнуюсемантическую роль, которая представлена для нескольких предикатов.
Этополезное обобщение помогает системе принимать решение в случаях, когдаисходный ресурс содержит мало примеров для одного предиката, но многопримеров для другого, принадлежащего к тому же фрейму, что и первый.В то же время использование высокоуровневых ролей может привести ксложностям из-за избирательной регистрации в ресурсе тонких семантическихразличий между актантами и фреймами. Учитывая, что основная цельразработчиков FrameNet – описательная, зачастую различия между ролями,будучи важными с позиций теоретической лингвистики, оказываются слишкомспецифическими с точки зрения прикладных задач автоматической обработкиязыка. Более того, эти различия не всегда проводятся системно, что затрудняетавтоматический анализ подобных ресурсов.
Пожалуй, любой, кто принималучастие в непосредственной разметке текстов на основе ресурса типаFrameNet, согласится, что некоторые случаи представляют трудности даже длялюдей, и, несомненно, эта задача оказывается ещё более сложной для машин.46В случае с FrameNet (и в отличие от VerbNet) дополнительная сложностьсостоит в том, что выбор конкретной метки актанта зачастую зависит отвыбранного фрейма: так, абстрактный Агенс при предикате "купить" получитроль "Покупатель", а при предикате "убить" – роль "Убийца".