diss005-ilvovsky_OtzOffOpp-Vinogradov (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)
Описание файла
Файл "diss005-ilvovsky_OtzOffOpp-Vinogradov" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
отзыв официального оппонента о диссертации Ильвовского Дмитрии Алексеевича «Методы и алгоритмы обработки текстовых данных иа основе графовых дискурса «и ых моделей», представленной на соискание ученой степени кандидата технических наук по специальности 05.13.18 «Математическое моделирование, численные методы и комплексы программ» Актуальность темы. Обработка текстов на естественном языке буквально пронизывает современные информационные технологии: поиск информации, классификация документов и выдача рекомендаций. В последние несколько десятилетий в этой области достигнут значительный прогресс. Опираясь на досгижения современной лингвистики, специалисты по информатике смогли перейти от использования простейших методов морфологической нормализации (лемматизации) к сложным моделям синтаксического (и даже поверхностно- семантического) анализа предложений.
Следующим естестззенным шагом в усложнении используемых моделей является «дискурсный» уровенгч когда строится модель не одного предложения, а целого абзаца. Хотя теоретиками-лингвистами разработаны (главным образом, для английского языка) различные модели дискурса (теория риторических структур, теория речевых актов), йа практике еще следует создать специальные модели, алгоритмы и программы для использования этих лингвистических знаний при автоматической обработке текста. Рецензируемая диссертационная работа посвящена этой актуальной теме. Оценка содержания диссертации Диссертация написана ясным и четким языком и состоит из введения, пяти глав, заключения, списка литературы и приложений.
Объем работы — 250 листов. Ьиблиография включает 139 названий. Введение Во введении приведена общая характеристика работы, обоснована актуальность темы диссертации, ее научная новизна и практическая значимость, сформулированы предмет, цель и задачи исследования. Глава 1. В главе ! даются теоретические основы используемых моделей и методов (анализ формальных понятий, проекции узорных структур, синтаксические и дискурсивные модели текста, определяется ключевое понятие работы — чаща разбора — обогащенное риторическими и коммуникативными связями множество деревьев разбора, ядра свертки для машины опорных векторов, онтологии).
Глава 2, Эта глава описывает графовую модель абзацев текста, на базе которой развивается метод построения решетки замкнутых описаний с использованием проекций узорных структур для ускорения вычислительно-сложного алгоритма поиска сходств ца множествах графов. 1 лава 3. В этой главе диссертант на основе модели «чаща разбора» предложил и исследовал специальные ядра свертки для текстов. которые позволяют применять к текстам на естественном языке широко-известный метод опорных векторов (БЧМ) В.Н.
Вапника. Экспериментальное сравнение с ранее используемыми ядрами свертки, основанными на модели «мешок слов», показало преимущества предложенного Д.А. Ильвовским подхода. Глава 4. В этой главе исследуется задача поиска тождественных денотатов для формальных описаний фрагментов текста.
Эта задача очень полезна при применении к онтологиям. Здесь снова применяется методы анализа формальных понятий, но здесь это — процедура фильтрации элементов решетки замкнутых описаний относительно индексов устойчивости. Глава 5. В этой главе описывается построенный в рамках диссертациошюго исследования программный комплекс, предназначенный для работы с чащами разбора, которые автоматически порождаются из текстов с как использованием программ с исходными текстами, так и созданных Д.А.
Ильвовским на основании лингвистической теории, а также модули интеллектуального анализа данных, разрабатываемых в НИУ-ВШЭ командой программистов, одним из активных участников которой является диссертант. Заклгочение В заключении приведены общие выводы из работы и сформулированы перспективные направления дальнейших исследований. Приложения. В приложениях (около 80 страниц) приводятся основные фрагмен'гы кода программной системы. Оценка автореферагпа диссертации Автореферат диссертация написан по стандартной схеме ясным и четким языком. Содержание диссертации отражено точно и полно.
Достоверность и новизна полученных результатов. Для достижения поставленной в работе цели диссертантом использовался широкий круг методов анализа формальных понятий, метода ядер сверток, онтологий и лингвистических моделей для дискурса. Графовая модель фрагмента текста — чаша разбора — получила свою алгоритмическукз реализацию. Все полученные Д.А. Ильвовским результаты являются новыми и оригинальными. Цеггность для науки и практики Иолученные результаты представляются ценными для практического использования.
Можно надеяться, что разработанные соискателем методы приведут к дальнейшему развитию информационного поиска, рекомендательных систем и онтологий. Подтвероюделие апробации работы и публикации результатов. Основные результаты диссертации своевременно опубликованы в научной печати. Следует отметить активное участие соискателя в национальных и международных конференциях по искусственному интеллекту и информационным технологиям с докладами и сообщениями. Заиечания к тексту диссертации и рекомендации по еео улучшению. 1. Во введении при обзоре предыдущих подходов к проблеме не упомянуты работы отечественных исследователей. 2.
Рекомендуется описание математических деталей частных подходов (ядра и онтологии) перенести из первой главы в соответствующие главы (3 и 4, соответственно). Тогда первая глава станет компактнее, а читателю будет удобно читать о применении ядер для коротких текстов и поиске тождественных сущностей в онтологиях, ознакомившись с относящимися к делу определениями в первых параграфах соответствующих глав. 3. Рецензент находит странным порядок перечисления использованных источников в списке литературы. 4. В списке литературы некоторые отечественные работы процитированы на английском языке (В.К.
Финн, С.А. Евтушенко, одна н та же работа которого цитируется 2 раза в [11] по-русски, а в 1103) — по-английски). Работа содержит несколько опечаток. Наиболее важные: 1. Страница 22: в определении 1.9 следует опустить индексы у знаков частичного порядка. 2. Страница 24: операция может быть алгоритмически (все оценки обычно асимптотические) сложной. 3.
Страница 27; в формуле для Ы111,Р) содержится опечатка. Д.В. Виноградов у Официальный оппонент С. н, с. ИПИ РАН ФИЦ ИУ РАН, к. ф. -м. н. Почтовый адрес: 119333, Москва, ул. Вавилова, д. 40 е-ша11: )птдпез1фуапдех.гп Соответствие уровня диссертаиии. Указанные недостатки не снижают научной и практической значимости работы. Представленные Ильвовским Д.Л. исследования отвечают цели работы и демонстрируют высокий научный уровень. Работа имеет важное практическое значение. Диссертационная работа Д.А. Ильвовского является законченной научной работой, в которой на основании проведенных автором исследований разработаны новые математические методы моделирования текстов, разработаны н исследованы эффективные вычислительные методы и алгоритмы, которые реализованы в виде программного комплекса.
В работе имеются новые научные результаты. Считаю, что диссертационная работа полностью соответствует требованиям, предъявляемым ВАК к кандидатским диссертациям на соискание степени кандидата технических наук, а ее автор Ильвовский Дмитрий Алексеевич заслуживает присуждения ему искомой степени по специальности 05.13.18 — «Математическое моделирование, численные методы и комплексы программ».
.