Отзыв официального оппонента (авт. Соловьёв В. Д.) (1100477)
Текст из файла
ОТЗЫВ официального оппонента о диссертации И. О. Кузнецова "Автоматическая разметка семантических ролей в русском языке", представленной на соискание ученой степени кандидата филологических наук по специальности 10.02.21 — Прикладная и математическая лингвистика. Диссертация И. О. Кузнецова посвящена одной из задач автоматической обработки текстов на русском языке. Речь идет о выделении семантических ролей — актуальной и далекой от решения задачи. Актуальность задачи не вызывает сомнений, т.к. разметка семантических ролей позволит перейти к более глубокому уровню понимания текста компьютером. В виду большой сложности семантического анализа это направление мало исследовано даже для английского языка и практически совсем не исследовано для русского. Диссертант предложил подход и разработал систему автоматической разметки актантов и маркировки их семантических ролей для русского языка.
Подход основан на машинном обучении с учителем и опирается на ряд лингвистически мотивированных признаков для описания объектов. В качестве метода машинного обучения использован метод опорных векторов, хорошо зарекомендовавший себя для широкого круга задач. В качестве обучающего и тестового корпуса выбран ЕгашеВапк. Диссертант квалифицированно применяет различные инструменты автоматического лингвистического анализа, в частности, предназначенные для предобработки текста, синтаксического анализа.
Все принимаемые решения тщательно обосновываются, альтернативные варианты обсуждаются. Правильный выбор технических решений, обусловленных различными сложными факторами, свидетельствует о высоком уровне квалификации И. О. Кузнецова в области компьютерной лингвистики. Для улучшения качества работы системы диссертантом разработан модуль глобальной оптимизации. Созданная система тщательно протестиро вана, проведена большая экспериментальная работа по оценке вклада различных обучающих параметров в итоговый результат.
Интересность, полезность и высокий уровень данной диссертации не вызывает сомнений. Перейдем к замечаниям и обсуждению спорных моментов. Прежде всего, обращает на себя внимание большое число описок, так на стр. 108 два ошибки встречаются даже в пределах одной фразы: '*Зона, отмеченная на Рисунок 344 ...". Далее, кажется, что в диссертации неоправданно много места выделяется для популярного изложения хорошо известных понятий (например, задачи классификации, рис. 2 и далее). Содержательно, принципиальными являются следующие замечания. 1.
При применении методов машинного обучения традиционно используются лингвистические признаки, обладающие следующими свойствами: однозначная интерпретация экспертами, высокая точность распознавания (близкая к 100;4), наличие признанных общедоступных стандартных программ выделения признаков. Например, свойство "начинаться с заглавной буквы". Свойство "путь", используемое в работе, этими свойствами не обладает.
Нет однозначной интерпретации синтаксической структуры предложений, набора синтаксических отношений. Используемая для определения путей программа Шарова вряд ли может считаться стандартной и общедоступной, Точность определения вершин дерева у нее лишь 82',4. Точность выделения путей, вероятно, падает с увеличением длины пути. Таким образом„использование этого признака противоречит обычной практике машинного обучения, снижает воспроизводимость результатов диссертации и делает их слишком зависимыми от конкретного выбранного формализма.
В то же время семантические роли шире конкретных синтаксических формализмов. 2. Результаты, полученные в диссертации, демонстрируют определяющую роль именно этого признака. В итоге, программа обучается, фактически, нахождению определенных актантных позиций в синтаксическом дереве, а не семантических ролей, как это должно быть согласно названию диссертации. В примерах 14 и 15 (стр. 147) семантическая роль слова "Иван", очевидно, одна и та же, однако, в дереве синтаксического разбора они занимают разные позиции, что оказывает влияние на результаты распознавания.
3. Странно, что среди лингвистических признаков нет такого важного и часто используемого, как порядок слов. Причем это никак не обсуждается. Без него непонятно как можно правильно определить семантические роли актантов в предложениях типа: "Спартак" переиграл "Зенит ". Являясь, формально, двусмысленным, реально оно интерпретируется однозначно.
4. Недостаточно внимания уделено признаку, на который автор, по его же словам, возлагал надежды — кластерам. Стоило поэкспериментировать с кластерами, полученными на основе другого (большего по объему или близкому по тематике) набора данных. Несмотря на сделанные замечания, частично полемического характера, я высоко оцениваю данную диссертацию. Автореферат и публикации соответствуют содержанию диссертации. Диссертация является научно-квалификационной работой, решившей задачу, актуальнуго для прикладной лингвисгики. На гтсновании па!играфов 9 и 10 Положения о присуждении ученых степеней можно угвсрждаз ь. ч го И.
О. Кузнецов заслуживает присуждения ему ученой степени кандидата филологических наук по заявленной специальности. Доктор физико-математических наф', тф?Офсет;",:", ведущий научный сотрудник ф', ' ' * НОЦ по лингвистике им. И. Л, ЬЬ~фэна:де Куртсцз ' " ФГАУВО Казанский (Приволжскйй) " федеральный университет" Соловьев В.Д. 1~ ~1,~~~~ ~ Сведения об оппоненте: 11 ~ ф~ л~:мъ"ж Соловьев Валерий Дмитриевич, гпаЫ,во)очусч))т)ша!).гп, +7~?196910489 Доктор физико-математических наук, профессор, ведущий научный сотрудник НОЦ по лингвистике им. И.
Л. Бодузна де Куртенз ФГАУВО "Казанский)Приволжский) федеральный университет" )Казань, 420008, ул. Кремлевская, д.18), рпЫ)с.пта)1®кр)ц.ги Публикации оппонента: Ча)сгу Бо!очусч апд У)айпш 1чапоч. КпоМсг)8с-с)г)чсп Ечсп) Ех)гас)!оп ш Кцаяап: Согриа-Ьааей )..ш8ц!а!!с Ксаоигсев, Со~про)а!!опа) ш)ей)8епсе апг1 пеиговс)енсе. 2016, Чо)ипзс 2016, Агбс1с 1)? 4183760, )й1р:Овм в.!шйачч!.сои~ ? ожгла)з/с)п?а)р!698102! Бо)очуеч 'Ч., К))зг)к Л, Нов сап сошрц)ег )ес)шо)о8)ся йе)р )шриябс )уро!о8у'? Нега)д оГ ))зс впвя)ап Асаг)спту оГ Вс)епсса. 2015.
Ч. 85, 1аапс 1„рр 33-39, Е)иагоч А. М., ).)рас)зсч Е. К., Хсчиогоча О. А., апд Бо)оч'с~ У. )?. Ме))то~Ь апс) Меапв Гог Яептап))с %гас!иг)п8 о)' Е1ес1гопгс Ма))зсгпа)!са) )?осишеп)з, )?ок)аду Ма))зепта))сз, 2014, Чо). 90, Хо. 1, рр. 521-524. .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.