Диссертация (1137241), страница 3

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 3 страницаДиссертация (1137241) страница 32019-05-202019-05-20СтудИзба

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Основные результаты работыобсуждались и докладывались на следующих научных конференцияхи семинарах:1. 9-й международной конференции «Интеллектуализация обработкиинформации» (ИОИ-2012), Будва, Черногория.132. Семинаре по анализу формальных понятий и информационномупоиску (FCAIR-2013) в рамках 35-й европейской конференции поинформационному поиску (ECIR-2013), Москва, Россия.3. 11-й международной конференции по анализу формальныхпонятий (ICFCA-2013), Дрезден, Германия.4.

8-й международной конференции по компьютерной лингвистикеДИАЛОГ-2013, Москва, Россия.5. 3-м семинаре по представлению знаний в виде графов (GKR-2013)в рамках 23-й объединенной международной конференции поискусственному интеллекту (IJCAI-2013), Пекин, Китай.6.

7-й международной конференции по компьютерной лингвистикеRANLP-2013, Хисаря, Болгария.7. Ежегодном весеннем симпозиуме ассоциации искусственногоинтеллекта (2014 AAAI Spring Simposium).8. 14-й международной конференции по интеллектуальной обработкетекста и компьютерной лингвистике CICLING-2014, Катманду,Непал.9. 52-й международной конференции Ассоциации компьютернойлингвистики ACL-2014, Балтимор, США.Публикациярезультатов.Основныерезультатыработыизложены в 12 научных статьях. 9 статей опубликованы врецензируемых трудах международных конференций, 3 статьиопубликованы в журналах из списка ВАК.Содержание.

Диссертация состоит из введения, 5 глав,заключения, списка литературы и приложений.Во введении раскрывается актуальность темы диссертации,формулируются проблемы исследования, предмет исследования,14определяется цель работы, описываются методы исследования,излагаютсяосновныенаучныерезультаты,обосновываетсятеоретическая и практическая значимость работы, даётся общаяхарактеристика исследования.Впервойглаверассматриваютсятеоретическиеосновыиспользуемых в дальнейшем моделей и методов и описываютсяособенности моделирования текстовых данных.

Приводятся основныеопределения, связанные с частично упорядоченными множествами ирешетками, решетками замкнутых описаний, синтаксическими исемантическимимоделямипредставлениятекста.Такжерассматриваются некоторые подходы к структурному обучению натекстовых данных. Вводится модель структурного представлениятекстовыхабзацевальтернативная–модельчащаразбора,краткоструктурногорассматриваетсяпредставлениятекста,основанная на семантико-коммуникативной структуре предложения.Во второй главе описывается графовая модель текстовыхабзацев и её применение в задаче информационного поиска (дляанглийского языка).

Рассматриваются методы вычисления полного иприближенногоструктурногосходстватекстовыхабзацев,определяется проекция структурного представления текстового абзацав виде расширенных синтаксических групп. Проводится анализполученныхрезультатов,демонстрируетсяпреимущество,достигаемое за счет вычисления сходства на абзацах, производитсясравнение методов, основанных на полном и приближенном сходстве.Также в главе определяется узорная структура (решетка замкнутыхструктурныхописаний)начащахразбораиихпроекциях.Описывается применение построенной модели для иерархическойкластеризации текстовых абзацев, источником которых можетслужить, например, поисковая выдача.15В третьей главе описывается применение построенной моделидля задачи обучения с учителем на текстовых абзацах (дляанглийского языка), основанное на использовании ядерных функций(kernels) в методе опорных векторов (SVM).

Производится сравнениессуществующеймоделью(Москитти),неиспользующейсемантическую информацию о связях между предложениями абзаца.Демонстрируется преимущество применения новой модели в задачеклассификации поисковых результатов.Вчетвертойтождественныхглаведенотатоврассматриваетсядляслучаязадачаформальныхвыявленияописаний,построенных на основе предварительно обработанных текстовыхданных.Предлагаетсяформальныхмодельописанийитождественныхметод,денотатовпозволяющийдляустанавливатьсемантические связи типа «та же сущность» между формальнымиописаниями, выделяемыми из текста.

Метод основан на применениифильтрации решеток формальных понятий. Производится сравнениеданного метода с альтернативными методами на нескольких наборахданных: сгенерированных и полученных из реального приложения.Демонстрируется улучшение, достигаемое за счет применения новогометода.В пятой главе приводится описание программных комплексов,реализующих разработанные в исследовании модели и методы.Рассматриваются комплекс FCART, предназначенный для анализаданных с помощью методов анализа формальных понятий, а такжепрограммныйкомплекс,предназначенныйдляобработкичащразбора. Описывается архитектура комплексов и применение взадачах исследования.Вприложенииприводятсяпрограммных комплексов.основныефрагментыкода161.

Теоретические основы моделирования1.1 Моделирование текстовых данныхАнализ и моделирование естественно-языковых текстовыхданных – особая ветвь анализа данных, выделенная в отдельнуюнаучную область ‒ компьютерную лингвистику. Эту область частотакже называют обработкой текстов на естественном языке (NaturalLanguage Processing). В качестве отличительных особенностей текстакак объекта моделирования и анализа можно перечислить:1. Известные априори закономерности, которым подчиняется текст.2. Нечеткий характер наблюдаемых закономерностей, большоеколичество исключительных ситуаций.3. Наличие нескольких вкладывающихся друг в друга уровнейанализа и представления текста.4. Ощутимое изменение языковой среды во времени.5.

Большие объемы доступных, но разнородных данных для анализа.6. Доступность экспертной оценки (любой носитель языка) приверификации модельных экспериментов.Приведенные выше особенности накладывают ряд ограниченийи требований на разрабатываемые модели текстовых данных. Такогорода модели должны:1. Учитывать реальные закономерности, наблюдаемые в текстах.2. Учитывать формальные правила языка.3.

Быть достаточно гибкими, позволяя осуществлять настройку идоработку с учетом изменений в языковой среде.4. Оперировать на определенном уровне представления текста.17Уровни моделирования текста можно расположить (в порядкевозрастания абстракции) следующим образом:1. Графематический. Текст рассматривается как последовательностьсимволов. Известно, что группы символов образуют слова илилексемы. Основная задача анализа на данном уровне – выявлениелексем.2. Морфологический.последовательностиморфологическиеТекстсловпредставляетсяисловоформ.характеристикиввидеАнализируютсясловоформ:леммыиграмматические свойства.3.

Синтаксический.Наданномуровнерассматриваютсясинтаксические связи между словами в предложении илисинтаксической группе.4. Семантический.4.1Семантические связи внутри предложения. Анализируютсясемантические связи внутри предложения (семантические роли,синонимы и т.д.)4.2Семантические связи между предложениями. Анализируютсятак называемые дискурсивные связи: анафора, риторическиеотношения и т.д.Выбор конкретного уровня моделирования текста предполагаетиспользование (или полноценное определение в рамках новоймодели) моделей для более «низких» уровней. Например, работая спредложениями, мы предполагаем, что обладаем некими моделями,позволяющими выделять отдельные слова из текстового массива,определять для этих слов части речи и т.д.18Вдиссертационнойработепредлагаетсямодельтекста,относящаяся к семантическому уровню.

При этом основной упорделается на дискурсивные связи. Одной из характерных чертисследования является стремление максимально использовать ужесуществующие модели, теории и методы, применяемые для анализатекстовых данных. Рассматриваемая модель активно использует какмодели более низкого уровня (подробнее см.

раздел 1.4.2), так имодели, относящиеся к семантическому уровню (подробнее см. раздел1.4.3). Таким образом, предлагаемый в исследовании подход вомногом сводится к комбинации и обобщению на более высокийуровень существующих, уже проверенных на практике и принятыхнаучнымсообществоммоделей,такихкакмодельдеревасинтаксического разбора, теория риторических отношений и т.д.1.2 Анализ формальных понятий и решетки замкнутых описанийОднойизактивноприменяемыхвисследованииматематических теорий является анализ формальных понятий и егорасширение ‒ решетки замкнутых описаний. Эта область сочетает всебе несколько удобных качеств, которые хорошо подходят, вчастности, для работы с текстами.

Во-первых, она позволяет работатьс формальными описаниями произвольной степени детализации. Вовторых, позволяет абстрагироваться от конкретного смысла изначения этих описаний, после того как сформулированы несколькопростых правил работы с ними (в общем случае достаточно лишьоперации вычисления сходства, обладающей заданными свойствами).В-третьих,благодаряконцепциитакназываемыхзамкнутыхописаний, позволяет использовать мощный и интуитивно понятныйаппарат теории решеток: частичных порядков с дополнительнымисвойствами.

Характеристики

Тип файла

PDF-файл

Размер

2,29 Mb

Материал

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modeli-algoritmy-i-programmnye-kompleksy-obrabotki-tekstovyh-dannyh-na-osnove-reshetok-zamknutyh-opisanij.rar

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.