diss005-ilvovsky_Zakl-Mest-Isp (1137216)
Текст из файла
УТВ БОДАЮ Проректор Национального исследовательского университета «Высшая пнсола экономики» Рогцин Сергей 10рьевич ,</< 2016' г. ЗАКЛЮЧЕНИЕ федерального государственного автономного образовательного учреждения высшего образования «Национальный исследовательский университет «Высшая школа экономики» Днсс ртация Ильвовского Дмитрия Алексеевича на тему: «Методы и :ыгоризмы обработки текстовых данных на основе графовь<х дискурсивных ковалей» выполнена в Департаменте анализа данных и искусственного мпеллекта факультета компьютерных наук федерального государственного автономного образовательного учреждения высшего образования :<Национальный исследовательский университет «Высшая школа экономики». В период подготовки диссертации соискатель ученой степени 'Кланов<ч<нй Дмитрий Алексеевич работал в федеральном государственном гвтовох яом образовательном учреждении высшего образования <Нацяо.'.
альный исследовательский университет «Высшая школа экономики» на до.'жь<ости младшего научного сотрудника международной научноясследовагельской лаборатории интеллектуальных систем и структурного анализа. В 2О! О г. Ильаовский Дмитрий Алексеевич окончил государственное Я1<азов:- тел ьное учреждение высшего профессионального образ<'ван" я <Московский авиационный институт 1государственный технический университет) «МАИ»» по специальности «Прикладная математика и чяформатина».
В 2О14 году окончил заочную аспирантуру федерального ."ос удар«таежного автономного образовательного учреждения высшего лрсфессионального об1зазования «Национальный исследовательскии <ниверснтет «Высшая школа экономики» по специальности О5. ~.1.'.8 Математическое моделирование, численные методы и комплексы программ, С 24 октября 2016 г.
по настояшее время прикреплен для подготовки диссертации по научной специальности О5.13.18 - Математическое моделирование, численные методы и комплексы программ к федеральному -осуларственнэму автономному образовательному учреждению высшего Образования «Национальный исследовательский университет «Вьюшая школа ЭКОНОМИКИ».
Улостоверение о сдаче кандидатских экзаменов выдано В 20<4 г. В аседера);,ном государственном автономном образовательном учреждении зыс)пег профессионального образования «Национальный исследовательскии университет «Высшая )пкола экономики». Научный руководитель — доктор физико-математических наук„профе=сор 1<'узнецов Сергей Олегович, работает в федеральном государственном автономном образовательном учреждении высшего Образования <Цацио).аз)ь))ь<й исследовательский университет «Высшая п(кола экономики»., -)уководлтель Департамента анализа данных и искусственного интел))акта.
Ло итогам обсуждения принято следующее заключение: Актуальность работы. Обработка текстов на естественном языке лорождает значительное количестВО Открытых проблем, сВязанных с "Озданием .1 реализацией эффективнь)х алгоритмов, которы~, с одной стороны, должны ,.)Меть т;:.Оретическое обоснование, а с другой стороны — учитывать ос()бснности <он)<ре).:(о)', задачи. Большинство существующих алгоритмов не учитывают структурные особенности текста и не позволяют оперировать формальным Описанием текста, обладающим достаточным уровнем абстракции. М-:етодь1 анализа формальных понятий (АФП)„основанные на свойствах )еп)Сток замкнутых множеств .и узорных структур, предоставляют удобный и )ф()ект)< вный математический аппарат для ре)пения задач, связанных с )Орабо):,"О)": текстовь х данных.
Эти методы СОчетают В себе несколько качеств, зслаюш)(х их пригодными для работы с текстами. Во-первых., АФП позволяет )аботат:, с формальн1ями Описаниями произвольной степени детализации, ВО- вторых., позволяет абстрагироваться от конкретного смысла и значения этих ЗГисаний, пос ге того как сфОрмулироВаны нескОлько простых правил рабОты с .)ими < ь <)бшем случае достаточно лишь Операции Вычисления сходств(1, :)блида)още)) заданными свойствами).
В-третьих, благодаря концепции так вазывае" 1ых замкнутых Описаний, позВоляет использовать мо1цный и интуитивно понятный аппарат теории решеток (частичных порядков с дополнительными свойствами). Решетка одновременно является и весьма удобной моделью представления знаний, допускающей различные уровни детализации, и весьма проработанным и развитым средством для работы с за)<ным.:, ()ти свойства делают решетки привлекательными в плане применения < задачам обработки текста, поскольку уже известны самые разные м()тодь) и модели, позволяющие построить формальное описание текста на синтакс)<ческом и дискурсивном уровне.
( эвременпые исследования в теории решеток замкнутых Описаний )азвива)этся з нескольких основных направлениях: анализ предгьсчтений Объедк,)в), ленивая классификация (г узнецов)„трикластеризация 'Итнатов1, интеграция с дескриптивной логикой (Рудольф), анализ сложных .юследовательностей (Наполи, Бузмаков) и т.д, также развивается применение , методов данной области для обработки текстовых данных.
В число приложении з зтои области входит работа со структурным представлением текста, классификация и кластеризация текстов, повышение релевантносхи информационного поиска, извлечение знаний из текста и т,д. Обоснованность научных поломсеннй подтверждена строгостью построенных математических моделей, зкспериментальной проверкой пезультатов численных расчетов н практической эффективностью зрограм пгых реализаций, Личное участие соискатели ученой степени в получении результатов, изложенных в диссертации, заключается в следующем: Создание модели представления текстовых абзацев, испо льзуницей дискурсивные:и синтаксические связи внутри текстового абзаца и ра зал ьающей принцип наименее общего обобщения; Поим енение построенной модели для решения задачи поиска по сложным запросам; 1"лработка метода„позволяющего повысить качество обучения на текстовых абзацах с помощью использования днскурсивной информации; Построение метода кластеризации текстов на основе решеток замки„ых 01 1 ксений„' Р:;зрабозка метода выявлеьия дискурсивных связен «та же сущность» н ф:, рмальных описаниях, построенных на основе текстовых данных, Реализация разработанных моделей, методов и алгоритмов в виде программного комплекса.
С ~ епень достоверности результатов проведенных соискателем ученой степени исследований подтверждается полученными рецензиями и отзывам я зедущих специалистов на международных конференциях и тестированием на открытых данных в соответствии со стандартами воспроизводимости. Научааи новизна работы. В диссертации автором был получен ряд ноьых научных результатов: 1,. Разработана графовая модель текстов, использующая и обобщаюгцая модель стру-.:.турного синтактико-дискурсивного представления текстового абзаца Иап:у разбора).
Новизна модели заключается в совместном использовании синтаксических деревьев разбора и дискурсивных ~~язей для представления текстовых абзацев ва английском языке. Модель ориентирована на применение в задачах поиска, классификации и кластеризации текстов и позволяет описывать сходство текстов в терминах обоо"цения их структурных графовых и древесных описаний. ?.
Предложенная модель применена в задаче поиска ответов по сложным запроса.ь Разработан численный метод, использующий разработанную модель. Применение метода позволяет улучшить качество поиска и устранить недостатки существующих моделей благодаря применению впервые введенной в работе операции структурного синтактикодискурсивного сходства для запроса и ответов. 3. Разработанная модель применена в задаче классификации текстовых данных. На основе предложенной модели реализован численный метод, использукиций ядерные функции. Применение модели позволяет устранить недостатки существующих моделей благодаря ранее не применявшемуся в задачах классификации абзацев использованию дискурсивной информации.
4. Разработано на базе ~р~д~оже~ной ~одели таксономическое предста~л~~ие коллекции текстовых данных в виде решетки замкнутых структурных синтактико-дискурсивных описаний. Полученное представление применено в задаче кластеризации текстовых данных и позволяет улучшить результаты, достигаемые альтернативными моделями. 5. Разработана на основе модели текстов и теории реше".ок замкну-ых ог исканий сригинальная модель тождественных денотатов для формальных описаний.
Предложены численный метод и алгоритм построения связей типа «та же сущность»„использующие разработанную модель. Новизна метсда зак.|ючается в использовании оригинального индекса ран;кирования замкнутых формальных описаний для нахождения денотатов. Теоретическая значимость работы заключается в разработке принципиально новых моделей и методов: графовой модели ", екстов, основанной на деревьях синтаксического разбора, таксономическом представлении текстовых данных, модели и методе выявления тождественных денотатов для формальных описаний.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.