diss005-ilvovsky_OtzOffOpp-Bogatyrev (1137211)

Файл №1137211 diss005-ilvovsky_OtzOffOpp-Bogatyrev (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)diss005-ilvovsky_OtzOffOpp-Bogatyrev (1137211)2019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

ОТЗЫВофициального оппонента на диссертациюИльвовского Дмитрия Алексеевича на тему:«Методы и алгоритмы обработки текстовых данных на основе графовыхдискурсивных моделей»,представленной на соискание учёной степени кандидата технических наукпо специальности 05.13.18 – «Математическое моделирование, численные методыи комплексы программ».1.Актуальность темы диссертации.Современное состояние информационного общества характеризуется лавинообразнымнарастанием объёмов данных, среди которых текстовые данные занимают всё большуючасть, являясь основным видом данных в сети Интернет. Это требует создания новыхметодов обработки текстовых данных, позволяющих выполнять более глубокий,семантический анализ текстов с цельюавтоматического извлечения из них знаний,воспринимаемых и обрабатываемых компьютерными системами.Данная диссертация относится к направлению исследований, обозначаемомутермином Text Mining, что в русскоязычной терминологии соответствует терминам«Интеллектуальный анализ текстовых данных», «Разработка текстовых данных»илидаже «Понимание текста».

Последнее обусловлено тем, что решение фундаментальнойпроблемы понимания текста компьютером является стратегической целью развитияданного направления.Все методы анализа текстов, применяемые в Text Mining, классифицируются подвум направлениям: методы, использующие статистики встречаемости слов в текстах, иметоды, основанные на применении семантических моделей текста. Данная работаотносится ко второму, семантическому направлению. В ней используются методыАнализа формальных понятий (АФП) и дискурсивных теорий. Преимуществом методовАнализа формальных понятий является строгая математическая основа предлагаемыхрешений и их универсальность.

Формальный контекст,- основная модель АФП,определён на произвольных множествах, поэтому может применяться к данным любойприроды, не обязательно к текстам. Применение методов АФП к текстовым даннымявляется новым направлением, в котором не так много результатов. Особенно это касаетсяпостроения семантических моделей текста, выходящих за рамки отдельного предложения.В данной работе как раз создана такая модель. Это определяет актуальность темыдиссертации. Разрабатываемые в ней моделитекстовых данных на основе графовых1дискурсивных моделей позволяют на новом уровне решать задачи поиска, классификациии кластеризации текстов.2. Содержание диссертации.Диссертация состоит из введения, пяти разделов, заключения, включает списоклитературы и семь приложений.Во введении обосновывается актуальность темы исследования, формулируютсязадачи исследования, описываются применяемые для решения методы, излагаютсяосновные результаты работы, даётся оценка их новизны, научной и практическойценности, приводятся сведения об апробации и внедрении результатов работы, а такжеобзор содержания работы по разделам.Первый раздел носит вводный характер и содержит необходимые сведения изтеории решёток, АФП, дискурсивных теорий.

Приводятся модели представления текста,среди которых "мешок слов», деревья синтаксического разбора, дискурсивные модели,чащи разбора. Рассматривается задача машинного обучения на текстовых данных иприменение ядерных функций в её решениях. Материал раздела имеет объем,необходимый для представления содержания работы в последующих разделах, изложенматематически корректно, с необходимыми ссылками на литературу.Второй раздел работы посвящён описанию разработанных в диссертации моделейи методов поиска ответов на сложные запросы.

Обосновывается необходимостьразработки таких методов для случаев, когда поисковые запросы представляют собойнесколько предложений. Далее вводится модель текстового абзаца, основанная напонятии чащи разбора. Для сравнения текстовых абзацев применяется операция ихобобщения, в которой используются несинтаксические связи.

Правильно отмечается, чтовыполнение операции обобщения на полных описаниях является NP-трудной задачей. Дляэффективного вычисления обобщения с сохранением свойств данной операциипредлагаетсявоспользоватьсямеханизмомпроекцийчащразбора.Изложенныеположения и утверждения далее используются для получения конкретных результатов:алгоритма вычисления сходства для двух абзацев с применением проекций, алгоритмакластеризации текстов, использующего узорные решётки. В разделе имеются примерыоценки релевантности поиска по сложным запросам и кластеризации текстов попредложенному алгоритму.Третий раздел диссертации содержит результаты решения задачи обучения сучителем на текстовых абзацах, в котором используются ядерные функции в методе2опорныхвекторов.Разделначинаетсясдостаточноинформативногообзорасуществующих методов и результатов машинного обучения на текстовых данных.

Далееописываются подходы к построению ядер в методе опорных векторов и приводятсярешения задачи поиска ответов на сложные запросы. Также в разделе приведенырезультаты решения задачи классификации технических документов. В разделе подробноописаны условия проведения вычислительных экспериментов с данными, организациятестовых данных, применяемые программные средства, даны корректные ссылки навнешние сетевые ресурсы. Выводы об эффективности предложенных решений,помещённые в конце раздела, подтверждаются приведёнными в разделе результатамиэкспериментов.Четвёртый раздел работы посвящён поиску тождественных денотатов вонтологиях и формальных контекстах.

Даётся определение денотата и приводитсяалгоритм поиска тождественных денотатов. Рассматриваются также альтернативныеметоды решения данной задачи. Алгоритм поиска тождественных денотатов основан напреобразовании онтологии в формальный контекст, в котором идентифицируютсяпонятия. Онтология представляет собой сложно организованный объект, поэтому вразделе предлагается ряд решений, позволяющих применить аппарат АФП к решениюзадачи поиска тождественных денотатов в онтологиях. Раздел содержит подробноеописание предлагаемых решений. Далее в разделе приведены описания и результатыэкспериментов по проверке эффективности решения задачи поиска тождественныхденотатов.Пятыйразделдиссертациисодержитописаниепрограммныхрешений,применяемых в вычислительных экспериментах. В начале раздела помещён краткий обзорсуществующих программных средств АФП.

Далее описывается программный комплексFCART для анализа данных методами АФП, разработанный при участии автора.Приведены базовые понятия, отражённые в функциях комплекса: аналитическиеартефакты, решатели, визуализаторы, отчёты. Показана программная архитектуракомплекса, его пользовательский интерфейс, примеры работы на конкретных данных. Вразделе чётко разделены программные решения, разработанные автором, и применяемыеим сторонние программные средства.Вцеломсодержаниедиссертациипозволяетсоставитьисчерпывающеепредставление о разработанных в ней методах и результатах их применения. Текстдиссертации написан грамотно, математические определения и результаты изложеныдостаточно строго.

В тексте диссертации не обнаружены опечатки.3Список литературы достаточно полно отражает современное состояние ввыбранной области исследований, включает как классические работы, монографии, так ипоследние статьи. Выборочный контроль не обнаружил в списке работ, на которых нетссылок в тексте.Автореферат диссертации в полной мере отражает её структуру, содержание,положения и выводы.2.Обоснованностьнаучныхположений,выводовирекомендаций,сформулированных в диссертации.Автором исчерпывающе описана исходная проблематика в выбранной областиисследования и правильно сформулированы задачи данного исследования. Для решенияпоставленных задач выбраны соответствующие им подходы и методы.

Полученныерезультаты изложены полно и детально проиллюстрированы в работе. Выводы обэффективности полученных результатов не подлежат сомнению.3.Достоверность и новизна исследования, полученных результатов,сформулированных в диссертации.Диссертация в целом представляет собой новое исследование в области Анализаформальных понятий, имеющее практическое значение.

В работе получены два новыхнаучных результата: графовая модель текстов, использующая и обобщающая структурноесинтактико-дискурсивное представление текстового абзаца в виде чащ разбора и модельтождественных денотатов для формальных описаний. Достоверность полученныхрезультатов подтверждена строгостью используемых для их получения моделей,экспериментальной проверкой результатов численных расчётов и продемонстрированнойпрактическойэффективностьюпрограммныхреализаций.Такжедостоверностьполученных результатов подтверждается их публикациями в научной печати уровня,соответствующего требованиям ВАК. Публикации автора отражают содержание ирезультаты диссертации достаточно полно.4.Значимость для науки и практики полученных автором результатов.Полученные автором результаты носят междисциплинарный характер.

С одной стороны,разработано новое приложение методов АФП к сложным текстам в виде абзацев. С другой4стороны, полученные результаты важны в математической лингвистике, где существуетпроблемапостроениясемантическихмоделейтекста,неограниченныходнимпредложением. Алгоритмы и их код, разработанные в диссертации, позволяют применятьнайденные решения в технологиях анализа и обработки текстовых данных, выводя их нановый уровень. В этом состоит практическое значение данной работы.5. Замечания по диссертационной работе.1. В работе на стр. 68 имеется ссылка на параметры проведения эксперимента,описанные в работе [73]. Однако среди авторов данной работы нет соискателя.

Вцелом, авторство соискателя не вызывает сомнения, но следовало бы сослаться надругую работу с его участием.2. Примеры с текстами в разд. 2.3.2 «Различные подходы к выявлению сходства междутекстовыми абзацами» изложены недостаточно подробно. Из них неясно, каквыполняется попарное обобщение абзацев.3. Аналогичное замечание относится к разд. 3.2 «Пример расширения деревьев разбора».4. В разделе 2.7 оценка вычислительной сложности даётся на примере и приведеныссылки на литературу. Следовало бы привести в данном разделе известныеаналитические результаты, касающиеся оценки вычислительной сложности, в томчисле и из литературы, на которую выполнены ссылки.5.

Нецелесообразно помещать в приложения (Приложения 1-6) код программ, тем болеефрагменты кода без подробных комментариев. Лучше было бы раскрыть вприложениях детали, касающиеся экспериментальной части работы.6. Заключительная оценка работыУказанные замечания не влияют на общую положительную оценку диссертационнойработы. Диссертация Ильвовского Дмитрия Алексеевича на соискание учёной степеникандидата наук является законченной научно-квалификационной работой, в которойсоздана новая графовая модель семантики текста, разработаны алгоритмы её реализации всистемах поиска ответов на сложные текстовые запросы и в системах классификациитекстов. В работе также получено новое решение задачи нахождения тождественныхденотатов для формальных описаний.

Результаты данной научной работы имеютпрактическоезначение,посколькусоздают5основудляпостроенияновых.

Характеристики

Тип файла

PDF-файл

Размер

574,67 Kb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.