diss005-ilvovsky_Zakl-Mest-Isp (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)
Описание файла
Файл "diss005-ilvovsky_Zakl-Mest-Isp" внутри архива находится в папке "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей". PDF-файл из архива "Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
УТВ БОДАЮ Проректор Национального исследовательского университета «Высшая пнсола экономики» Рогцин Сергей 10рьевич ,</< 2016' г. ЗАКЛЮЧЕНИЕ федерального государственного автономного образовательного учреждения высшего образования «Национальный исследовательский университет «Высшая школа экономики» Днсс ртация Ильвовского Дмитрия Алексеевича на тему: «Методы и :ыгоризмы обработки текстовых данных на основе графовь<х дискурсивных ковалей» выполнена в Департаменте анализа данных и искусственного мпеллекта факультета компьютерных наук федерального государственного автономного образовательного учреждения высшего образования :<Национальный исследовательский университет «Высшая школа экономики». В период подготовки диссертации соискатель ученой степени 'Кланов<ч<нй Дмитрий Алексеевич работал в федеральном государственном гвтовох яом образовательном учреждении высшего образования <Нацяо.'.
альный исследовательский университет «Высшая школа экономики» на до.'жь<ости младшего научного сотрудника международной научноясследовагельской лаборатории интеллектуальных систем и структурного анализа. В 2О! О г. Ильаовский Дмитрий Алексеевич окончил государственное Я1<азов:- тел ьное учреждение высшего профессионального образ<'ван" я <Московский авиационный институт 1государственный технический университет) «МАИ»» по специальности «Прикладная математика и чяформатина».
В 2О14 году окончил заочную аспирантуру федерального ."ос удар«таежного автономного образовательного учреждения высшего лрсфессионального об1зазования «Национальный исследовательскии <ниверснтет «Высшая школа экономики» по специальности О5. ~.1.'.8 Математическое моделирование, численные методы и комплексы программ, С 24 октября 2016 г.
по настояшее время прикреплен для подготовки диссертации по научной специальности О5.13.18 - Математическое моделирование, численные методы и комплексы программ к федеральному -осуларственнэму автономному образовательному учреждению высшего Образования «Национальный исследовательский университет «Вьюшая школа ЭКОНОМИКИ».
Улостоверение о сдаче кандидатских экзаменов выдано В 20<4 г. В аседера);,ном государственном автономном образовательном учреждении зыс)пег профессионального образования «Национальный исследовательскии университет «Высшая )пкола экономики». Научный руководитель — доктор физико-математических наук„профе=сор 1<'узнецов Сергей Олегович, работает в федеральном государственном автономном образовательном учреждении высшего Образования <Цацио).аз)ь))ь<й исследовательский университет «Высшая п(кола экономики»., -)уководлтель Департамента анализа данных и искусственного интел))акта.
Ло итогам обсуждения принято следующее заключение: Актуальность работы. Обработка текстов на естественном языке лорождает значительное количестВО Открытых проблем, сВязанных с "Озданием .1 реализацией эффективнь)х алгоритмов, которы~, с одной стороны, должны ,.)Меть т;:.Оретическое обоснование, а с другой стороны — учитывать ос()бснности <он)<ре).:(о)', задачи. Большинство существующих алгоритмов не учитывают структурные особенности текста и не позволяют оперировать формальным Описанием текста, обладающим достаточным уровнем абстракции. М-:етодь1 анализа формальных понятий (АФП)„основанные на свойствах )еп)Сток замкнутых множеств .и узорных структур, предоставляют удобный и )ф()ект)< вный математический аппарат для ре)пения задач, связанных с )Орабо):,"О)": текстовь х данных.
Эти методы СОчетают В себе несколько качеств, зслаюш)(х их пригодными для работы с текстами. Во-первых., АФП позволяет )аботат:, с формальн1ями Описаниями произвольной степени детализации, ВО- вторых., позволяет абстрагироваться от конкретного смысла и значения этих ЗГисаний, пос ге того как сфОрмулироВаны нескОлько простых правил рабОты с .)ими < ь <)бшем случае достаточно лишь Операции Вычисления сходств(1, :)блида)още)) заданными свойствами).
В-третьих, благодаря концепции так вазывае" 1ых замкнутых Описаний, позВоляет использовать мо1цный и интуитивно понятный аппарат теории решеток (частичных порядков с дополнительными свойствами). Решетка одновременно является и весьма удобной моделью представления знаний, допускающей различные уровни детализации, и весьма проработанным и развитым средством для работы с за)<ным.:, ()ти свойства делают решетки привлекательными в плане применения < задачам обработки текста, поскольку уже известны самые разные м()тодь) и модели, позволяющие построить формальное описание текста на синтакс)<ческом и дискурсивном уровне.
( эвременпые исследования в теории решеток замкнутых Описаний )азвива)этся з нескольких основных направлениях: анализ предгьсчтений Объедк,)в), ленивая классификация (г узнецов)„трикластеризация 'Итнатов1, интеграция с дескриптивной логикой (Рудольф), анализ сложных .юследовательностей (Наполи, Бузмаков) и т.д, также развивается применение , методов данной области для обработки текстовых данных.
В число приложении з зтои области входит работа со структурным представлением текста, классификация и кластеризация текстов, повышение релевантносхи информационного поиска, извлечение знаний из текста и т,д. Обоснованность научных поломсеннй подтверждена строгостью построенных математических моделей, зкспериментальной проверкой пезультатов численных расчетов н практической эффективностью зрограм пгых реализаций, Личное участие соискатели ученой степени в получении результатов, изложенных в диссертации, заключается в следующем: Создание модели представления текстовых абзацев, испо льзуницей дискурсивные:и синтаксические связи внутри текстового абзаца и ра зал ьающей принцип наименее общего обобщения; Поим енение построенной модели для решения задачи поиска по сложным запросам; 1"лработка метода„позволяющего повысить качество обучения на текстовых абзацах с помощью использования днскурсивной информации; Построение метода кластеризации текстов на основе решеток замки„ых 01 1 ксений„' Р:;зрабозка метода выявлеьия дискурсивных связен «та же сущность» н ф:, рмальных описаниях, построенных на основе текстовых данных, Реализация разработанных моделей, методов и алгоритмов в виде программного комплекса.
С ~ епень достоверности результатов проведенных соискателем ученой степени исследований подтверждается полученными рецензиями и отзывам я зедущих специалистов на международных конференциях и тестированием на открытых данных в соответствии со стандартами воспроизводимости. Научааи новизна работы. В диссертации автором был получен ряд ноьых научных результатов: 1,. Разработана графовая модель текстов, использующая и обобщаюгцая модель стру-.:.турного синтактико-дискурсивного представления текстового абзаца Иап:у разбора).
Новизна модели заключается в совместном использовании синтаксических деревьев разбора и дискурсивных ~~язей для представления текстовых абзацев ва английском языке. Модель ориентирована на применение в задачах поиска, классификации и кластеризации текстов и позволяет описывать сходство текстов в терминах обоо"цения их структурных графовых и древесных описаний. ?.
Предложенная модель применена в задаче поиска ответов по сложным запроса.ь Разработан численный метод, использующий разработанную модель. Применение метода позволяет улучшить качество поиска и устранить недостатки существующих моделей благодаря применению впервые введенной в работе операции структурного синтактикодискурсивного сходства для запроса и ответов. 3. Разработанная модель применена в задаче классификации текстовых данных. На основе предложенной модели реализован численный метод, использукиций ядерные функции. Применение модели позволяет устранить недостатки существующих моделей благодаря ранее не применявшемуся в задачах классификации абзацев использованию дискурсивной информации.
4. Разработано на базе ~р~д~оже~ной ~одели таксономическое предста~л~~ие коллекции текстовых данных в виде решетки замкнутых структурных синтактико-дискурсивных описаний. Полученное представление применено в задаче кластеризации текстовых данных и позволяет улучшить результаты, достигаемые альтернативными моделями. 5. Разработана на основе модели текстов и теории реше".ок замкну-ых ог исканий сригинальная модель тождественных денотатов для формальных описаний.
Предложены численный метод и алгоритм построения связей типа «та же сущность»„использующие разработанную модель. Новизна метсда зак.|ючается в использовании оригинального индекса ран;кирования замкнутых формальных описаний для нахождения денотатов. Теоретическая значимость работы заключается в разработке принципиально новых моделей и методов: графовой модели ", екстов, основанной на деревьях синтаксического разбора, таксономическом представлении текстовых данных, модели и методе выявления тождественных денотатов для формальных описаний.