Отзыв официального оппонента (авт. Соловьёв В. Д.) (Автоматическая разметка семантических ролей в русском языке)
Описание файла
Файл "Отзыв официального оппонента (авт. Соловьёв В. Д.)" внутри архива находится в следующих папках: Автоматическая разметка семантических ролей в русском языке, документы. PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ОТЗЫВ официального оппонента о диссертации И. О. Кузнецова "Автоматическая разметка семантических ролей в русском языке", представленной на соискание ученой степени кандидата филологических наук по специальности 10.02.21 — Прикладная и математическая лингвистика. Диссертация И. О. Кузнецова посвящена одной из задач автоматической обработки текстов на русском языке. Речь идет о выделении семантических ролей — актуальной и далекой от решения задачи. Актуальность задачи не вызывает сомнений, т.к. разметка семантических ролей позволит перейти к более глубокому уровню понимания текста компьютером. В виду большой сложности семантического анализа это направление мало исследовано даже для английского языка и практически совсем не исследовано для русского. Диссертант предложил подход и разработал систему автоматической разметки актантов и маркировки их семантических ролей для русского языка.
Подход основан на машинном обучении с учителем и опирается на ряд лингвистически мотивированных признаков для описания объектов. В качестве метода машинного обучения использован метод опорных векторов, хорошо зарекомендовавший себя для широкого круга задач. В качестве обучающего и тестового корпуса выбран ЕгашеВапк. Диссертант квалифицированно применяет различные инструменты автоматического лингвистического анализа, в частности, предназначенные для предобработки текста, синтаксического анализа.
Все принимаемые решения тщательно обосновываются, альтернативные варианты обсуждаются. Правильный выбор технических решений, обусловленных различными сложными факторами, свидетельствует о высоком уровне квалификации И. О. Кузнецова в области компьютерной лингвистики. Для улучшения качества работы системы диссертантом разработан модуль глобальной оптимизации. Созданная система тщательно протестиро вана, проведена большая экспериментальная работа по оценке вклада различных обучающих параметров в итоговый результат.
Интересность, полезность и высокий уровень данной диссертации не вызывает сомнений. Перейдем к замечаниям и обсуждению спорных моментов. Прежде всего, обращает на себя внимание большое число описок, так на стр. 108 два ошибки встречаются даже в пределах одной фразы: '*Зона, отмеченная на Рисунок 344 ...". Далее, кажется, что в диссертации неоправданно много места выделяется для популярного изложения хорошо известных понятий (например, задачи классификации, рис. 2 и далее). Содержательно, принципиальными являются следующие замечания. 1.
При применении методов машинного обучения традиционно используются лингвистические признаки, обладающие следующими свойствами: однозначная интерпретация экспертами, высокая точность распознавания (близкая к 100;4), наличие признанных общедоступных стандартных программ выделения признаков. Например, свойство "начинаться с заглавной буквы". Свойство "путь", используемое в работе, этими свойствами не обладает.
Нет однозначной интерпретации синтаксической структуры предложений, набора синтаксических отношений. Используемая для определения путей программа Шарова вряд ли может считаться стандартной и общедоступной, Точность определения вершин дерева у нее лишь 82',4. Точность выделения путей, вероятно, падает с увеличением длины пути. Таким образом„использование этого признака противоречит обычной практике машинного обучения, снижает воспроизводимость результатов диссертации и делает их слишком зависимыми от конкретного выбранного формализма.
В то же время семантические роли шире конкретных синтаксических формализмов. 2. Результаты, полученные в диссертации, демонстрируют определяющую роль именно этого признака. В итоге, программа обучается, фактически, нахождению определенных актантных позиций в синтаксическом дереве, а не семантических ролей, как это должно быть согласно названию диссертации. В примерах 14 и 15 (стр. 147) семантическая роль слова "Иван", очевидно, одна и та же, однако, в дереве синтаксического разбора они занимают разные позиции, что оказывает влияние на результаты распознавания.
3. Странно, что среди лингвистических признаков нет такого важного и часто используемого, как порядок слов. Причем это никак не обсуждается. Без него непонятно как можно правильно определить семантические роли актантов в предложениях типа: "Спартак" переиграл "Зенит ". Являясь, формально, двусмысленным, реально оно интерпретируется однозначно.
4. Недостаточно внимания уделено признаку, на который автор, по его же словам, возлагал надежды — кластерам. Стоило поэкспериментировать с кластерами, полученными на основе другого (большего по объему или близкому по тематике) набора данных. Несмотря на сделанные замечания, частично полемического характера, я высоко оцениваю данную диссертацию. Автореферат и публикации соответствуют содержанию диссертации. Диссертация является научно-квалификационной работой, решившей задачу, актуальнуго для прикладной лингвисгики. На гтсновании па!играфов 9 и 10 Положения о присуждении ученых степеней можно угвсрждаз ь. ч го И.
О. Кузнецов заслуживает присуждения ему ученой степени кандидата филологических наук по заявленной специальности. Доктор физико-математических наф', тф?Офсет;",:", ведущий научный сотрудник ф', ' ' * НОЦ по лингвистике им. И. Л, ЬЬ~фэна:де Куртсцз ' " ФГАУВО Казанский (Приволжскйй) " федеральный университет" Соловьев В.Д. 1~ ~1,~~~~ ~ Сведения об оппоненте: 11 ~ ф~ л~:мъ"ж Соловьев Валерий Дмитриевич, гпаЫ,во)очусч))т)ша!).гп, +7~?196910489 Доктор физико-математических наук, профессор, ведущий научный сотрудник НОЦ по лингвистике им. И.
Л. Бодузна де Куртенз ФГАУВО "Казанский)Приволжский) федеральный университет" )Казань, 420008, ул. Кремлевская, д.18), рпЫ)с.пта)1®кр)ц.ги Публикации оппонента: Ча)сгу Бо!очусч апд У)айпш 1чапоч. КпоМсг)8с-с)г)чсп Ечсп) Ех)гас)!оп ш Кцаяап: Согриа-Ьааей )..ш8ц!а!!с Ксаоигсев, Со~про)а!!опа) ш)ей)8епсе апг1 пеиговс)енсе. 2016, Чо)ипзс 2016, Агбс1с 1)? 4183760, )й1р:Овм в.!шйачч!.сои~ ? ожгла)з/с)п?а)р!698102! Бо)очуеч 'Ч., К))зг)к Л, Нов сап сошрц)ег )ес)шо)о8)ся йе)р )шриябс )уро!о8у'? Нега)д оГ ))зс впвя)ап Асаг)спту оГ Вс)епсса. 2015.
Ч. 85, 1аапс 1„рр 33-39, Е)иагоч А. М., ).)рас)зсч Е. К., Хсчиогоча О. А., апд Бо)оч'с~ У. )?. Ме))то~Ь апс) Меапв Гог Яептап))с %гас!иг)п8 о)' Е1ес1гопгс Ма))зсгпа)!са) )?осишеп)з, )?ок)аду Ма))зепта))сз, 2014, Чо). 90, Хо. 1, рр. 521-524. .