diss005-ilvovsky_OtzOffOpp-Bogatyrev (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)
Описание файла
Файл "diss005-ilvovsky_OtzOffOpp-Bogatyrev" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ОТЗЫВофициального оппонента на диссертациюИльвовского Дмитрия Алексеевича на тему:«Методы и алгоритмы обработки текстовых данных на основе графовыхдискурсивных моделей»,представленной на соискание учёной степени кандидата технических наукпо специальности 05.13.18 – «Математическое моделирование, численные методыи комплексы программ».1.Актуальность темы диссертации.Современное состояние информационного общества характеризуется лавинообразнымнарастанием объёмов данных, среди которых текстовые данные занимают всё большуючасть, являясь основным видом данных в сети Интернет. Это требует создания новыхметодов обработки текстовых данных, позволяющих выполнять более глубокий,семантический анализ текстов с цельюавтоматического извлечения из них знаний,воспринимаемых и обрабатываемых компьютерными системами.Данная диссертация относится к направлению исследований, обозначаемомутермином Text Mining, что в русскоязычной терминологии соответствует терминам«Интеллектуальный анализ текстовых данных», «Разработка текстовых данных»илидаже «Понимание текста».
Последнее обусловлено тем, что решение фундаментальнойпроблемы понимания текста компьютером является стратегической целью развитияданного направления.Все методы анализа текстов, применяемые в Text Mining, классифицируются подвум направлениям: методы, использующие статистики встречаемости слов в текстах, иметоды, основанные на применении семантических моделей текста. Данная работаотносится ко второму, семантическому направлению. В ней используются методыАнализа формальных понятий (АФП) и дискурсивных теорий. Преимуществом методовАнализа формальных понятий является строгая математическая основа предлагаемыхрешений и их универсальность.
Формальный контекст,- основная модель АФП,определён на произвольных множествах, поэтому может применяться к данным любойприроды, не обязательно к текстам. Применение методов АФП к текстовым даннымявляется новым направлением, в котором не так много результатов. Особенно это касаетсяпостроения семантических моделей текста, выходящих за рамки отдельного предложения.В данной работе как раз создана такая модель. Это определяет актуальность темыдиссертации. Разрабатываемые в ней моделитекстовых данных на основе графовых1дискурсивных моделей позволяют на новом уровне решать задачи поиска, классификациии кластеризации текстов.2. Содержание диссертации.Диссертация состоит из введения, пяти разделов, заключения, включает списоклитературы и семь приложений.Во введении обосновывается актуальность темы исследования, формулируютсязадачи исследования, описываются применяемые для решения методы, излагаютсяосновные результаты работы, даётся оценка их новизны, научной и практическойценности, приводятся сведения об апробации и внедрении результатов работы, а такжеобзор содержания работы по разделам.Первый раздел носит вводный характер и содержит необходимые сведения изтеории решёток, АФП, дискурсивных теорий.
Приводятся модели представления текста,среди которых "мешок слов», деревья синтаксического разбора, дискурсивные модели,чащи разбора. Рассматривается задача машинного обучения на текстовых данных иприменение ядерных функций в её решениях. Материал раздела имеет объем,необходимый для представления содержания работы в последующих разделах, изложенматематически корректно, с необходимыми ссылками на литературу.Второй раздел работы посвящён описанию разработанных в диссертации моделейи методов поиска ответов на сложные запросы.
Обосновывается необходимостьразработки таких методов для случаев, когда поисковые запросы представляют собойнесколько предложений. Далее вводится модель текстового абзаца, основанная напонятии чащи разбора. Для сравнения текстовых абзацев применяется операция ихобобщения, в которой используются несинтаксические связи.
Правильно отмечается, чтовыполнение операции обобщения на полных описаниях является NP-трудной задачей. Дляэффективного вычисления обобщения с сохранением свойств данной операциипредлагаетсявоспользоватьсямеханизмомпроекцийчащразбора.Изложенныеположения и утверждения далее используются для получения конкретных результатов:алгоритма вычисления сходства для двух абзацев с применением проекций, алгоритмакластеризации текстов, использующего узорные решётки. В разделе имеются примерыоценки релевантности поиска по сложным запросам и кластеризации текстов попредложенному алгоритму.Третий раздел диссертации содержит результаты решения задачи обучения сучителем на текстовых абзацах, в котором используются ядерные функции в методе2опорныхвекторов.Разделначинаетсясдостаточноинформативногообзорасуществующих методов и результатов машинного обучения на текстовых данных.
Далееописываются подходы к построению ядер в методе опорных векторов и приводятсярешения задачи поиска ответов на сложные запросы. Также в разделе приведенырезультаты решения задачи классификации технических документов. В разделе подробноописаны условия проведения вычислительных экспериментов с данными, организациятестовых данных, применяемые программные средства, даны корректные ссылки навнешние сетевые ресурсы. Выводы об эффективности предложенных решений,помещённые в конце раздела, подтверждаются приведёнными в разделе результатамиэкспериментов.Четвёртый раздел работы посвящён поиску тождественных денотатов вонтологиях и формальных контекстах.
Даётся определение денотата и приводитсяалгоритм поиска тождественных денотатов. Рассматриваются также альтернативныеметоды решения данной задачи. Алгоритм поиска тождественных денотатов основан напреобразовании онтологии в формальный контекст, в котором идентифицируютсяпонятия. Онтология представляет собой сложно организованный объект, поэтому вразделе предлагается ряд решений, позволяющих применить аппарат АФП к решениюзадачи поиска тождественных денотатов в онтологиях. Раздел содержит подробноеописание предлагаемых решений. Далее в разделе приведены описания и результатыэкспериментов по проверке эффективности решения задачи поиска тождественныхденотатов.Пятыйразделдиссертациисодержитописаниепрограммныхрешений,применяемых в вычислительных экспериментах. В начале раздела помещён краткий обзорсуществующих программных средств АФП.
Далее описывается программный комплексFCART для анализа данных методами АФП, разработанный при участии автора.Приведены базовые понятия, отражённые в функциях комплекса: аналитическиеартефакты, решатели, визуализаторы, отчёты. Показана программная архитектуракомплекса, его пользовательский интерфейс, примеры работы на конкретных данных. Вразделе чётко разделены программные решения, разработанные автором, и применяемыеим сторонние программные средства.Вцеломсодержаниедиссертациипозволяетсоставитьисчерпывающеепредставление о разработанных в ней методах и результатах их применения. Текстдиссертации написан грамотно, математические определения и результаты изложеныдостаточно строго.
В тексте диссертации не обнаружены опечатки.3Список литературы достаточно полно отражает современное состояние ввыбранной области исследований, включает как классические работы, монографии, так ипоследние статьи. Выборочный контроль не обнаружил в списке работ, на которых нетссылок в тексте.Автореферат диссертации в полной мере отражает её структуру, содержание,положения и выводы.2.Обоснованностьнаучныхположений,выводовирекомендаций,сформулированных в диссертации.Автором исчерпывающе описана исходная проблематика в выбранной областиисследования и правильно сформулированы задачи данного исследования. Для решенияпоставленных задач выбраны соответствующие им подходы и методы.
Полученныерезультаты изложены полно и детально проиллюстрированы в работе. Выводы обэффективности полученных результатов не подлежат сомнению.3.Достоверность и новизна исследования, полученных результатов,сформулированных в диссертации.Диссертация в целом представляет собой новое исследование в области Анализаформальных понятий, имеющее практическое значение.
В работе получены два новыхнаучных результата: графовая модель текстов, использующая и обобщающая структурноесинтактико-дискурсивное представление текстового абзаца в виде чащ разбора и модельтождественных денотатов для формальных описаний. Достоверность полученныхрезультатов подтверждена строгостью используемых для их получения моделей,экспериментальной проверкой результатов численных расчётов и продемонстрированнойпрактическойэффективностьюпрограммныхреализаций.Такжедостоверностьполученных результатов подтверждается их публикациями в научной печати уровня,соответствующего требованиям ВАК. Публикации автора отражают содержание ирезультаты диссертации достаточно полно.4.Значимость для науки и практики полученных автором результатов.Полученные автором результаты носят междисциплинарный характер.
С одной стороны,разработано новое приложение методов АФП к сложным текстам в виде абзацев. С другой4стороны, полученные результаты важны в математической лингвистике, где существуетпроблемапостроениясемантическихмоделейтекста,неограниченныходнимпредложением. Алгоритмы и их код, разработанные в диссертации, позволяют применятьнайденные решения в технологиях анализа и обработки текстовых данных, выводя их нановый уровень. В этом состоит практическое значение данной работы.5. Замечания по диссертационной работе.1. В работе на стр. 68 имеется ссылка на параметры проведения эксперимента,описанные в работе [73]. Однако среди авторов данной работы нет соискателя.
Вцелом, авторство соискателя не вызывает сомнения, но следовало бы сослаться надругую работу с его участием.2. Примеры с текстами в разд. 2.3.2 «Различные подходы к выявлению сходства междутекстовыми абзацами» изложены недостаточно подробно. Из них неясно, каквыполняется попарное обобщение абзацев.3. Аналогичное замечание относится к разд. 3.2 «Пример расширения деревьев разбора».4. В разделе 2.7 оценка вычислительной сложности даётся на примере и приведеныссылки на литературу. Следовало бы привести в данном разделе известныеаналитические результаты, касающиеся оценки вычислительной сложности, в томчисле и из литературы, на которую выполнены ссылки.5.
Нецелесообразно помещать в приложения (Приложения 1-6) код программ, тем болеефрагменты кода без подробных комментариев. Лучше было бы раскрыть вприложениях детали, касающиеся экспериментальной части работы.6. Заключительная оценка работыУказанные замечания не влияют на общую положительную оценку диссертационнойработы. Диссертация Ильвовского Дмитрия Алексеевича на соискание учёной степеникандидата наук является законченной научно-квалификационной работой, в которойсоздана новая графовая модель семантики текста, разработаны алгоритмы её реализации всистемах поиска ответов на сложные текстовые запросы и в системах классификациитекстов. В работе также получено новое решение задачи нахождения тождественныхденотатов для формальных описаний.
Результаты данной научной работы имеютпрактическоезначение,посколькусоздают5основудляпостроенияновых.