diss005-ilvovsky_OtzAvtoref-NIVC_MGU (1137206)
Текст из файла
ОТЗЫВ НА АВТОРЕФЕРАТ ДИССЕРТАЦИИ Ильвовского Дмитрия Алексеевича 'Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", представленной на соискание ученой степени кандидата технических наук по специальности 05.13. 18 «Математическое моделирование. численные методы и комплексы программ» Настоящее время характеризуется большими объемами электронной текстовой информации, которую необходимо анализировать, осуществлять в ней поиск. подвергать разного рода обработке типа классификации, кластеризации, извлекать различную информацию. Тексты на естественном языке представляют собой чрезвычайно сложные структурные объекты, однако превалирующей технологией представления содержания связно~о текста является подход на основе мешка слов, не учитывающий синтаксические и семантические взаимосвязи между словами. Это связано с тем.
что текст содержи~ болыпое количество такого рода связей, которые трудно эффективно имплементировать в алгоритмы. В то же время ясно, что для дальнейшего улучшения качества обработки текстов необходимо учитывать дополнительные знания о языке и об окружающем мире. Диссертация Ильвовского Д.А. посвящена использованию в задачах информационного поиска. классификации и кластеризации текстов нескольких структурных типов отношений между словами, а именно используются синтаксические деревья разбора предложений, отношения кореференции, структура риторических отношений между предложениями в тексте.
В первой главе приводятся основные определения. связанные с частично упорядоченными множествами и решетками. решетками замкнутых описаний, синтаксическими и семантическими моделями представления текста. Также вводится модель структурного представления текстовых абзацев — чаща разбора. Во второй главе описывается графовая модель представления структуры текстовых абзацев и ее применение в задаче информационного поиска для английского языка.
Рассматриваются методы вычисления полного и приближенного структурного сходства текстовых абзацев, определяется проекция структурного представления текстового абзаца в виде расширенных синтаксических групп. В третьей главе описывается применение построенной модели для задачи обучения с учителем на текстовых абзацах (для английского языка). основанное на использовании ядерных функций ()сегпе)з) в методе опорных векторов (КУМ). Демонстрируется преимущество применения новой модели в задаче классификации поисковых результатов.
В четвертой главе рассматривается задача выявления тождественных денотатов для случая формальных описаний. построенных на основе предварительно обработанных текстовых данных. В пятой главе приводится описание построенного в рамках исследования программного комплекса. реализующего разработанные в исследовании модели и методы. В целом, работа представляет интересный подход к представлению текстовых абзацев для улучшения качества приложений автоматической обработки текстов. Замечания к автореферату: !.
В автореферате неоднократно цитируется работа А1еззапс1го МовсЬ1п1. однако нигде не дается ссылка на его конкретную работу, 2. Десятичные числа записываются то через запятую. то через точку. Указанные недостатки являются несущественными и не влияют на понимание сути полученных результатов. Исходя из анализа текста автореферата, можно заключить, что диссертация Ильвовского Дмитрия Алексеевича является законченной самостоятельной научноисследовательской работой. Принимая во внимание актуальность темы диссертации. научную новизну и практическую значимость ее результатов, считаю, .что диссертационная работа «Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей» удовлетворяет всем требованиям ВАК при Миноорнауки России, предъявляемым к кандидатским диссертациям, а ее автор, Ильвовский Дмитрий Алексеевич, безусловно, заслуживает присуждения ученой степени кандидата технических наук по специальности 05.13.18 — "Математическое моделирование„численные методы и комплексы программ ".
Лукашевич Наталья Валентиновна д.т,н. ведущий научный сотрудник НИВЦ МГУ им. М.В. Ломоносова 8-926-1446163 1оц1с па1Са ша1!хи 119234. Москва, Ленинские горы 1~4 .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.