Диссертация (1137507), страница 22
Текст из файла (страница 22)
Исходя из этого требования модульцелочисленного программирования максимизирует суммарную уверенностьклассификатора по каждому отдельному узлу в дереве зависимостей длявыбранного предложения. Отметим, что заполнение каждой роли нетребуется, и таким образом в некоторых случаях более надежным решениемоказывается приписать слову нулевой класс. В качестве альтернативнойстратегииможнобылобырассмотретьвведениедополнительногоограничения, которое требует, что каждая роль или определённые роли былизаполнены. Вместо набора ограничений, который применяется в нашейсистеме сейчас, а именно∀: ∑ = 1∀ ≠ ∅: ∑ ≤ 1Мы бы могли использовать набор следующего вида:∀: ∑ = 1∀ ≠ ∅: ∑ ≤ 1152∀ ∈ ∶ ∑ = 1Однако такой модификации процедуры оптимизации противоречатсоображениятипологическогохарактера.Врусскомязыкекрайнераспространено явление эллипсиса, при котором то или иное слово, в томчисле актанты, не выражается в поверхностной структуре предложения.
Если ванглийском языке с точки зрения грамматики в таких ситуациях необходимоиспользовать местоимение, в русском языке может быть использован нулевойэлемент, не отражённый в поверхностной структуре.В этом смысле требование заполнения ядерных ролей хотя и можетвыполняться формально, на поверхностном уровне не действует.
До тех пор,пока нам не будет доступен синтаксический анализатор, который мог бывыделять подобные "нулевые" элементы, требование к заполнению всех ролейдля автоматической классификации актантов в русском языке кажется намслишком строгим. Это утверждение безусловно требует дополнительнойпроверки, которое находится за рамками настоящей работы.153IV. ВыводыВ этой главе мы подведём итоги проведённого исследования, а такжеопишем перспективные, на наш взгляд, пути дальнейшего развитияпредложенной системы.В рамках диссертационного исследования была предложена системаавтоматической разметки и классификации актантов для русского языка.
Этопервый опыт построения подобной системы на основе корпуса FrameBank,размеченного по семантическим ролям. В соответствии с установившейсятрадицией, мы интерпретируем задачу автоматической разметки актантов какзадачу классификации и решаем её с помощью методов машинного обучения.В качестве метода классификации мы используем метод опорных векторов(support vector machines) на основе набора лингвистически мотивированныхпризнаков. Для того чтобы получить доступ к лингвистической информации,необходимой для классификации актантов, мы подвергаем тексты исходногообучающегокорпусаFrameBankавтоматическойпредобработке:морфологическому анализу, лемматизации и синтаксическому анализу.Отдельный важный этап предобработки – проекция аннотаций FrameBank,выполненных на отрезках текста, на узлы синтаксических деревьев, чтопозволяет извлекать синтаксические свойства и интерпретировать задачуклассификации актантов как задачу классификации узлов дерева зависимостей.154Другой важный этап предварительной обработки данных – фильтрация:поскольку ресурс находится в стадии разработки, некоторые примерысодержат неточности, и мы устраняем подобные примеры с помощью наборафильтрующих правил.После того как свойства извлечены и выполнена проекция разметки сотрезков текста на узлы дерева зависимостей, мы выполняем классификациюактантов: каждому узлу в дереве зависимостей приписывается семантическаяроль или специальная отметка, сигнализирующая о том, что данный узел ненесёт никакой роли в выбранном предложении.
Недостаток такого подходасостоит в том, что решения классификатора принимаются независимо друг отдруга, в результате чего могут нарушаться некоторые теоретическиеограничения (например, что одна и та же роль не может быть заполненадважды для одного предиката). Для решения этой проблемы мы разработалимодуль на основе целочисленного программирования, который осуществляетглобальную оптимизацию работы классификаторов с учётом ограничений,налагаемых теорией семантических ролей.Мы провели детальный анализ работы системы и оценили вкладразличных параметров и свойств в качество автоматической разметки актантов.Нашанализдемонстрируетважностьсинтаксическихсвойствдляавтоматической разметки актантов, а также важность соответствия исходной ицелевой предметной областей при использовании дистрибутивных моделейдляучёталексическогосходстваактантов.Наширезультатытакжедемонстрируют, что глобальная оптимизация является важным шагом вавтоматической обработке актантов.Разработка предложенной в работе системы сопровождалась принятиемрядатехническихдоступностьюирешений,качествомобусловленныхресурсов,различнымикачествомработыфакторами:модулейпредобработки, легкостью анализов результатов работы определенных155подсистем.
Принятые решения не являются единственно возможными, и нижемы остановимся на альтернативных подходах, которые не были использованыв рамках данной работы, но безусловно являются жизнеспособнымиальтернативыми и представляют интерес для дальнейших исследований поавтоматической обработке актантов для русского языка.Наши выводы о возможных альтернативных подходах к решениюавтоматической разметки актатнов в русском языке можно условно разделитьна три группы.
Первая группа выводов связана с решениями, которыенаходятся в русле используемых в работе подходов, и так или иначе могли быспособствовать развитию и улучшению разработанной системы. Вторая группавыводов касается проблемы использования методов обучения без учителя длярешениязадачавтоматическойсемантическойразметкиактантовприменительно к русскому материалу. Наконец, финальные замечания связаныс возможными шагами по усовершенствованию корпуса FrameBank. Нижебудет более детально рассмотрена каждая из групп.IV.1 Альтернативные решенияИнтерпретируемый алгоритм машинного обученияКак уже было сказано, машинное обучение осуществлялось на баземетода опорных векторов.
Этот подход обладает рядом безусловныхдостоинств, наиболее важные из которых – скорость работы и качествополучаемых результатов. Основным недостатком метода является сложностьинтерпретациирезультатов.Приразработкесистемывкачествепромежуточного этапа мы использовали вариант, в котором вместо методаопорных веторов использовались деревья принятия решений. Результирующеекачество классификации этого метода оказалось невысоким, однако благодаряинтерпретируемости и прозрачности моделей мы смогли сделать ряд важных156наблюдений, например, о поведении свойства путь и целесообразностиусечения пути для повышения обобщающей способности модели.
В целом,использование деревьев принятия решений в той или иной форме имеетопределённые перспективы применительно к рассматриваемой задаче,особенно в случае, если система будет разрабатываться лингвистами, которыесмогут интерпретировать полученные деревья с точки зрения науки о языке.Даже в случаях, когда деревья принятия решений оказываются не самымэффективным методом с точки зрения показателей качества, они могут бытьиспользованы для анализа специфики задачи и адекватности предлагаемыхметодов. Такой анализ мог бы значительно улучшить понимание проблемавтоматической разметки актантов в контексте русского языка.Усовершенствованная глобальная оптимизацияМодель, использованная нами в рамках данного исследования,достаточно проста с технической точки зрения. Система основана на наборе независящих друг от друга классификаторов, результаты работы которых могутбыть затем оптимизированы на глобальном уровне с помощью алгоритмовцелочисленного программирования.
Хотя целочисленное програмимрование ипредоставляет определённый уровень глобальной оптимизации, это неединственное возможное решение. Так, в наиболее современных работах поавтоматической разметке актантов [Das, 2014] вместо целочисленнойоптимизации используются модели, в которых взаимозависимость присвоенияролей включена уже в модель классификации, что представляется нам болееестественным и эффективным решением, которое, однако, требует большихусилий по имплементации. Опробирование более современных моделей –один из возможных путей развития предложенной нами системы.157Усовершенствование свойств для обученияИз уже упомянутых ранее сложностей, с которыми мы столкнулись,хочетсяещёразостановитьсянанизкомвкладекластеризациииразреженности и специфичности свойства "путь".
Отсутствие существенноговклада кластеризации в нашем случае ни в коем случае нельзя считатьнедостаткомRusVectōrēs,выбраннойнанамикотороесемантическоймыопирались,модели.Представлениепозволяетполучитьвысококачественные кластеры, а метод кластеризации на основе алгоритмаChinese Whispers был успешно использован на английском материале. Скореевсего, основная причина низкой эффективности кластерных свойств – высокийвес синтаксических свойств и несоответствие предметных областей корпусаFrameBank и новостных корпусов, на основе которых были созданы моделисемантической близости.