Отзыв официального оппонента (авт. Иомдин Л. Л.) (1100476)
Текст из файла
Отзыв О диссертационной работе Ильи Олеговича Кузнецова «Автоматическая разметка семантических ролей в русском языке» (специальность 10.02,21 — Прикладная и математическая лингвистика) Более 60 лет назад выдающийся английский лингвист и философ Джон Руперт Ферс провозгласил тезис, ставший крылатым выражением «Уоп йаП *хлои а иогб Ьу 'ше согпрапу й 1геерз (У. К,Р(гй, Рареге т 1лпйшег(ез 1934 — 1951, Ьопдоп, Ох(огс1 ()п(чегз11у Ргезз, 1957).
По мнению оппонента, не будет преувеличением сказать, что в рецензируемой диссертации этому выражению придается строгий математический смысл. В самом деле, диссертационная работа РЬО.Кузнецова посвящена автоматическому приписыванию семантических ролей актантам предикатных слов в русском тексте, и эта задача не просто успешно решается, но и получает широкое и убедительное теоретическое обоснование. Диссертационная работа насчитывает 178 страниц и имеет весьма четкую и прозрачную структуру. Основной текст предваряет краткое, но чрезвычайно емкое Введение, в котором содержится постановка задачи, фиксируется конкретная область исследования, избранная диссертантом (лежащая, по мнению автора, на стыке компьютерной лингвистики и автоматической обработки текстов) и определяется ее место в более широкой области знаний (искусственный интеллект), неформально излагаются основные положения избранной научной области, отмечаются главные вехи в ее развитии, а также характеризуются теоретические принципы и методы, на которых основывается рецензируемая диссертационная работа (это, с одной стороны, теория семантических ролей, восходящая к Ч.
Филмору, а с другой, использование корпуса текстов, содержащего ролевую разметку, в системе машинного обучения). Обосновывается актуальность предлагаемой работы, демонстрируется новизна применяемых в ней решений и подходов и отмечается практическая значимость полученных результатов. Основной текст диссертации состоит из четырех глав, традиционно разбивающихся на разделы (а частично и подразделы) и резюмирующего краткого заключения. Библиография диссертации насчитывает 102 источника, из которых 17 русскоязычных, а 85 написаны на английском языке.
Первая глава, озаглавленная «Теория семантических ролей и автоматическая разметка актантов», носит в первую очередь теоретический характер. Здесь излагается система семантических ролей Ч.Филмора, построенный на основе этой системы компьютерно-лексикографический ресурс Ргаше Хе1, а также концептуально близкая к филморовской система лексических (или тематических) отношений Дж. Грубера.
С достаточной степенью детальности описывается разработанный отечественными лингвистами под руководством О.Н.Ляшевской компьютерно-лингвистический ресурс для русского языка ЕгашеВап(г, в целом основанный на принципах, близких к филморовским, но отличающимся от них предикатно-специфической ориентацией семантических ролей актантов предикатных слов (преждле всего глагольных). Отмечается также близость этого ресурса к идеям Московской семантической школы, которая в свою очередь восходит к теории «Смысл с> Текст» И.А.Мельчука, А.К.Жолковского и Ю.Д.Апресяна. Именно ггатеВапк послужил ресурсом, на основе которого строится система приписывания семантических ролей актантам предикатов в русском языке. Эта же глава содержит тщательно выполненный литературный обзор, в котором характеризуются как работы прошлых лет, так и весьма современные исследования, относящиеся к данной тематике.
Львиная доля этих работ приходится на английский язык, для которого задача разметки семантических ролей актантов была поставлена не менее десятилетия назад. Что касается русского языка, то работа И.О.Кузнецова — по существу первый масштабный опыт построения автоматической системы такой разметки. Основные результаты диссертации приводятся во второй главе, озаглавленной «Система автоматической разметки актантов для русского языка». Данная глава занимает в тексте диссертационной работы центральное место как по объему, так и по содержанию. Она разбивается на пять достаточно крупных и относительно независимых подразделов. В первом из них строго излагается постановка задачи. Указывается, в частности, что система строится на основе предикатно-специфических ролей актантов. Отмечается также, что задача идентификации актантов рассматривается как задача классификации элементов дерева зависимостей, с помощью которых представляется синтаксическая структура русского предложения, Второй раздел главы 2 задает исходные данные для строящейся системы, а именно, для обучения, тестирования и оптимизации предлагаемого классификатора.
Эти исходные данные — не что иное, как коллекция материалов компьютернолексикографического ресурса ГгапзеВапк. Приводятся конкретные примеры таких материалов, которые обсуждаются со значительной степенью подробности н в исключительно ясных терминах, облегчающих понимание деталей исследования и разработки даже для читателя, не являющегося узким специалистом данной предметной области. Третий раздел представляет собой структурированное описание системы ролевой разметки актантов, в котором характеризуются все модули, входящие в состав системы.
Особый интерес здесь представляет собой завершающий модуль оптимизации, с помощью которого максимально эффективным образом разрешается неоднозначность классификации актантов, если таковая появляется в результате применения предшествующих модулей системы. В этом же разделе характеризуются свойства структуры предложения, для которого производится актантная разметка. Они подразделяются на синтаксические и семантические; к числу первых относится полный путь от предиката до его актанта в синтаксической структуре предложения и так называемый короткий путь; падеж актанта или его предложно-надежная форма (образно именуемая диссертантом как финский падеж) и некоторые другие, а к числу вторых относится лемма, кластер (своего рода парадигматический объект, полученный для леммы предикатов с помощью нескольких часто используемых алгоритмов вроде С)йпезе иЫзрегз и иогд2чес, а также частеречная принадлежность актанта.
Атрибуция последнего свойства как семантического может вызвать сомнения, но диссертант убедительно показывает, что с точки зрения машинного обучения часть речи относится именно к семантическим свойствам. Четвертый раздел второй главы посвящен детальному описанию модуля глобальной оптимизации результатов работы системы по классификации элементов текста как актантов предикатов. Этот модуль выполнен на основе применения средств целочисленного программирования.
Наконец, пятый раздел характеризует некоторые технические особенности реализации системы: фиксируются форматы представления данных, задаются состав и параметры работы промежуточных модулей (морфологических, синтаксических и т.д.), описываются библиотеки программ, с помощью которых реализуется программный комплекс. Чуть менее объемной, но отнюдь не менее важной содержательно является третья глава диссертации. Она озаглавлена «Экспериментальная оценка и результаты» и посвящена методам оценки качества созданной системы автоматической разметки семантических ролей актантов предикатных слов, а главное, практическому применению этих методов в процессе машинного обучения.
Здесь формулируются критерии оценки, фиксируются применяемые метрики, как основные (такие как полнота, точность и г-мера), так и созданные автором специально для разработанной им системы. Глава 3 разбивается на четыре раздела, в которых подробно описываются критерии оценки качества, процедура такой оценки, а отдельно приводятся ее результаты. Оценка производится по целому ряду параметров и наборов применяемых свойств. Выделяется несколько лучших алгоритмов, конфигураций и вариантов работы системы, учитывается зависимость между ними, выделяются наиболее значимые и наименее значимые свойства. Показано, что наилучшие результаты дает комбинация синтаксических и семантических свойств, в то время как учет только одних семантических свойств приводит к ухудшению параметров работы системы, Заключительная, четвертая глава диссертации подводит основные итоги диссертации и намечаются возможные пути продолжения работы, при котором можно ожидать приращения результатов.
Среди этих путей диссертант видит, во-первых, применение альтернативных методов машинного обучения (в частности, интерпретируемого алгоритма машинного обучения, в котором вместо применяемого в работе метода опорных векторов использовались бы деревья принятия решений), во вторых, в применения ряда методов обучения без учителя, а, в третьих, в усовершенствовании и расширении используемых лингвистических ресурсов. Следует подчеркнуть, что диссертация И.О,Кузнецова выполнена весьма и весьма тщательно, написано очень хорошим, грамотным, богатым и доходчивым языком. Основные положения диссертации излагаются последовательно, логично, за ходом изложения легко следить даже начинающему специалисту. У оппонента нет сомнения, что данная диссертация будет использована не только как источник новой научной информации, но и как весьма качественное учебное пособие в области машинного обучения применительно к компьютерно-лингвистическим системам различного назначения, Стоит отметить также, что ряд формулировок диссертации представляется очень удачным в общенаучном и даже философском плане.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.