diss005-ilvovsky_OtzAvtoref-Yandex (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)
Описание файла
Файл "diss005-ilvovsky_OtzAvtoref-Yandex" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
Отзыв на автореферат кандидатской диссертации Ильвовского Дмитрия Алексеевича, «Методы н алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей», представленной на соискание ученой степени кандидата технических наук по специальности 05.13.18 — Математическое моделирование, численные методы и комплексы программ. Диссертационная работа Ильвовского Д.А. посвящена актуальной области информапионного поиска, связанной со структурным представлением текстов. В работе рассматривается решение следующих основных задач: ° создать формальные модели текстов на естественном языке, которые отражают не только их теоретико-множественную, а также и синтаксическую, и дискурсивную структуры; ° разработать на основе предложенных моделей комплекс алгоритмов и программ, предназначенных для поиска, классификации и кластеризации текстовых данных, а также опережающих по эффективности частотные моделей, активно применяемых в настоящее время в индустрии, в частности„в современных поисковых системах.
Результат поиска текстов (документов) по запросу в таких системах представляется в виде последовательности документов, расположенных в порядке убывания их релевантности запросу, Эффективность, или качество, поиска определяется тем, насколько этот порядок близок к содержательным представлениям о релевантности документов. В абсолютном большинстве случаев массовый пользователь просматривает ограниченное число (от 1О до 100) выданных поисковой системой документов. Поисковая система тем лучше (качество обеспечиваемого ею поиска тем выше), чем скорее пользователь найдет текст, содержащий интересующую его информацикх то есть чем меньше бесполезных для него документов ему придется просмотреть.
Следует отметить„что структуры, используемые современными поисковыми сервисами, недостаточно хорошо отражают смысловую структуру текста, что в ряде случаев проявляется в низком качестве их работы. В диссертации показано, что, с одной стороны, возможность автоматически учитывать синтактико-дискурсивную структуру текста позволяет существенно повысить качество поиска. С другой стороны, сложность синтаксического и дискурсивного анализа текста не позволяет эффективно реализовать его на очень больших поисковых массивах.
Тем не менее, данный метод позволяет сделать это при обработке, например, первых 50 или 100 выданных первичным поиском документов, что позволяет применять предлагаемы анализ на э~вне «переранжирования» современных глобальных поисковых систем в Интернете (таких как, Яндекс и Ооо81е). В качестве недоста~ка работы стоит отметить, что в автореферате (в отличие от диссертации) это соображение не высказано в явном виде.
Также в автореферате некоторые представленные результаты не снабжены информацией об уровне статистической значимости превосходства качества одних алгоритмов над другими (см. таблицы 3.1-3.4 и 4.1-4.3). Эти недостатки не снижают теоретической и практической ценности работы. Результаты работы являются новыми, реализованы в виде программного обеспечения, апробированы на реальных задачах, а также опубликованы в рецензируемых трудах ведущих международных конференций и в 3 статьях в журналах из списка ВАК. Считаю, что диссертация «Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей» соответствует заявленной научной специальности 05.13.18, обладает научной новизной и практической ценностью, соответствует квалификационным требованиям ВАК, предъявляемым к кандидатским диссертациям, а ее автор, Ильвовский Дмитрий Алексеевич, заслуживает присвоения ему ученой степени кандидата технических наук. 11.05.20! 7 Друца Алексей Валерьевич, кандидат физико-математических наук Разработчик-исследователь программного обеспечения 000 «Яндекс» 119021, Москва, ул.
Льва Толстого, 16 Лй.щи~;ь -.-)~:,Фчф, .Д., ~~ « "81««Р У Рт«ОЛУЛЯ1ГЛЬ С))УД„-И Пл ««П ГО 5,'1«1Л~„'Ия ~,'Отйьул)1йй,'.,йй йя Оййпйьилл ЛОДГРЁФ400,131 ЬЗ1,;;- ' 01 Ш ИЫВ1Х ХЗ1В Г. .