diss005-ilvovsky_Zakl-Mest-Isp (1137216)

Файл №1137216 diss005-ilvovsky_Zakl-Mest-Isp (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей)diss005-ilvovsky_Zakl-Mest-Isp (1137216)2019-05-202019-05-20СтудИзба

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

УТВ БОДАЮ Проректор Национального исследовательского университета «Высшая пнсола экономики» Рогцин Сергей 10рьевич ,</< 2016' г. ЗАКЛЮЧЕНИЕ федерального государственного автономного образовательного учреждения высшего образования «Национальный исследовательский университет «Высшая школа экономики» Днсс ртация Ильвовского Дмитрия Алексеевича на тему: «Методы и :ыгоризмы обработки текстовых данных на основе графовь<х дискурсивных ковалей» выполнена в Департаменте анализа данных и искусственного мпеллекта факультета компьютерных наук федерального государственного автономного образовательного учреждения высшего образования :<Национальный исследовательский университет «Высшая школа экономики». В период подготовки диссертации соискатель ученой степени 'Кланов<ч<нй Дмитрий Алексеевич работал в федеральном государственном гвтовох яом образовательном учреждении высшего образования <Нацяо.'.

альный исследовательский университет «Высшая школа экономики» на до.'жь<ости младшего научного сотрудника международной научноясследовагельской лаборатории интеллектуальных систем и структурного анализа. В 2О! О г. Ильаовский Дмитрий Алексеевич окончил государственное Я1<азов:- тел ьное учреждение высшего профессионального образ<'ван" я <Московский авиационный институт 1государственный технический университет) «МАИ»» по специальности «Прикладная математика и чяформатина».

В 2О14 году окончил заочную аспирантуру федерального ."ос удар«таежного автономного образовательного учреждения высшего лрсфессионального об1зазования «Национальный исследовательскии <ниверснтет «Высшая школа экономики» по специальности О5. ~.1.'.8 Математическое моделирование, численные методы и комплексы программ, С 24 октября 2016 г.

по настояшее время прикреплен для подготовки диссертации по научной специальности О5.13.18 - Математическое моделирование, численные методы и комплексы программ к федеральному -осуларственнэму автономному образовательному учреждению высшего Образования «Национальный исследовательский университет «Вьюшая школа ЭКОНОМИКИ».

Улостоверение о сдаче кандидатских экзаменов выдано В 20<4 г. В аседера);,ном государственном автономном образовательном учреждении зыс)пег профессионального образования «Национальный исследовательскии университет «Высшая )пкола экономики». Научный руководитель вЂ” доктор физико-математических наук„профе=сор 1<'узнецов Сергей Олегович, работает в федеральном государственном автономном образовательном учреждении высшего Образования <Цацио).аз)ь))ь<й исследовательский университет «Высшая п(кола экономики»., -)уководлтель Департамента анализа данных и искусственного интел))акта.

Ло итогам обсуждения принято следующее заключение: Актуальность работы. Обработка текстов на естественном языке лорождает значительное количестВО Открытых проблем, сВязанных с "Озданием .1 реализацией эффективнь)х алгоритмов, которы~, с одной стороны, должны ,.)Меть т;:.Оретическое обоснование, а с другой стороны вЂ” учитывать ос()бснности <он)<ре).:(о)', задачи. Большинство существующих алгоритмов не учитывают структурные особенности текста и не позволяют оперировать формальным Описанием текста, обладающим достаточным уровнем абстракции. М-:етодь1 анализа формальных понятий (АФП)„основанные на свойствах )еп)Сток замкнутых множеств .и узорных структур, предоставляют удобный и )ф()ект)< вный математический аппарат для ре)пения задач, связанных с )Орабо):,"О)": текстовь х данных.

Эти методы СОчетают В себе несколько качеств, зслаюш)(х их пригодными для работы с текстами. Во-первых., АФП позволяет )аботат:, с формальн1ями Описаниями произвольной степени детализации, ВО- вторых., позволяет абстрагироваться от конкретного смысла и значения этих ЗГисаний, пос ге того как сфОрмулироВаны нескОлько простых правил рабОты с .)ими < ь <)бшем случае достаточно лишь Операции Вычисления сходств(1, :)блида)още)) заданными свойствами).

В-третьих, благодаря концепции так вазывае" 1ых замкнутых Описаний, позВоляет использовать мо1цный и интуитивно понятный аппарат теории решеток (частичных порядков с дополнительными свойствами). Решетка одновременно является и весьма удобной моделью представления знаний, допускающей различные уровни детализации, и весьма проработанным и развитым средством для работы с за)<ным.:, ()ти свойства делают решетки привлекательными в плане применения < задачам обработки текста, поскольку уже известны самые разные м()тодь) и модели, позволяющие построить формальное описание текста на синтакс)<ческом и дискурсивном уровне.

( эвременпые исследования в теории решеток замкнутых Описаний )азвива)этся з нескольких основных направлениях: анализ предгьсчтений Объедк,)в), ленивая классификация (г узнецов)„трикластеризация 'Итнатов1, интеграция с дескриптивной логикой (Рудольф), анализ сложных .юследовательностей (Наполи, Бузмаков) и т.д, также развивается применение , методов данной области для обработки текстовых данных.

В число приложении з зтои области входит работа со структурным представлением текста, классификация и кластеризация текстов, повышение релевантносхи информационного поиска, извлечение знаний из текста и т,д. Обоснованность научных поломсеннй подтверждена строгостью построенных математических моделей, зкспериментальной проверкой пезультатов численных расчетов н практической эффективностью зрограм пгых реализаций, Личное участие соискатели ученой степени в получении результатов, изложенных в диссертации, заключается в следующем: Создание модели представления текстовых абзацев, испо льзуницей дискурсивные:и синтаксические связи внутри текстового абзаца и ра зал ьающей принцип наименее общего обобщения; Поим енение построенной модели для решения задачи поиска по сложным запросам; 1"лработка метода„позволяющего повысить качество обучения на текстовых абзацах с помощью использования днскурсивной информации; Построение метода кластеризации текстов на основе решеток замки„ых 01 1 ксений„' Р:;зрабозка метода выявлеьия дискурсивных связен «та же сущность» н ф:, рмальных описаниях, построенных на основе текстовых данных, Реализация разработанных моделей, методов и алгоритмов в виде программного комплекса.

С ~ епень достоверности результатов проведенных соискателем ученой степени исследований подтверждается полученными рецензиями и отзывам я зедущих специалистов на международных конференциях и тестированием на открытых данных в соответствии со стандартами воспроизводимости. Научааи новизна работы. В диссертации автором был получен ряд ноьых научных результатов: 1,. Разработана графовая модель текстов, использующая и обобщаюгцая модель стру-.:.турного синтактико-дискурсивного представления текстового абзаца Иап:у разбора).

Новизна модели заключается в совместном использовании синтаксических деревьев разбора и дискурсивных ~~язей для представления текстовых абзацев ва английском языке. Модель ориентирована на применение в задачах поиска, классификации и кластеризации текстов и позволяет описывать сходство текстов в терминах обоо"цения их структурных графовых и древесных описаний. ?.

Предложенная модель применена в задаче поиска ответов по сложным запроса.ь Разработан численный метод, использующий разработанную модель. Применение метода позволяет улучшить качество поиска и устранить недостатки существующих моделей благодаря применению впервые введенной в работе операции структурного синтактикодискурсивного сходства для запроса и ответов. 3. Разработанная модель применена в задаче классификации текстовых данных. На основе предложенной модели реализован численный метод, использукиций ядерные функции. Применение модели позволяет устранить недостатки существующих моделей благодаря ранее не применявшемуся в задачах классификации абзацев использованию дискурсивной информации.

4. Разработано на базе ~р~д~оже~ной ~одели таксономическое предста~л~~ие коллекции текстовых данных в виде решетки замкнутых структурных синтактико-дискурсивных описаний. Полученное представление применено в задаче кластеризации текстовых данных и позволяет улучшить результаты, достигаемые альтернативными моделями. 5. Разработана на основе модели текстов и теории реше".ок замкну-ых ог исканий сригинальная модель тождественных денотатов для формальных описаний.

Предложены численный метод и алгоритм построения связей типа «та же сущность»„использующие разработанную модель. Новизна метсда зак.|ючается в использовании оригинального индекса ран;кирования замкнутых формальных описаний для нахождения денотатов. Теоретическая значимость работы заключается в разработке принципиально новых моделей и методов: графовой модели ", екстов, основанной на деревьях синтаксического разбора, таксономическом представлении текстовых данных, модели и методе выявления тождественных денотатов для формальных описаний.

Характеристики

Тип файла

PDF-файл

Размер

5,31 Mb

Материал

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

metody-i-algoritmy-obrabotki-tekstovyh-dannyh-na-osnove-grafovyh-diskursivnyh-modelej.rar

Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

diss005-ilvovsky_AvtoRef.pdf

diss005-ilvovsky_OtzAvtoref-NIVC_MGU.pdf

diss005-ilvovsky_OtzAvtoref-VMKiK.pdf

diss005-ilvovsky_OtzAvtoref-Yandex.pdf

diss005-ilvovsky_OtzDiss-Chepovsky.pdf

diss005-ilvovsky_OtzNauchRuk.pdf

diss005-ilvovsky_OtzOffOpp-Bogatyrev.pdf

diss005-ilvovsky_OtzOffOpp-Vinogradov.pdf

diss005-ilvovsky_OtzVedOrg_IPPI.pdf

diss005-ilvovsky_SvedOffOpp-Vinogradov.pdf

diss005-ilvovsky_SvedVedOrg_IPPI.pdf

diss005-ilvovsky_Zakl-Mest-Isp.pdf

diss005-ilvovsky_ZaklPrisuzdenie.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.