Главная » Просмотр файлов » Диссертация

Диссертация (1149537)

Файл №1149537 Диссертация (Исследование паттернов в текстах на основе динамических моделей)Диссертация (1149537)2019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙУНИВЕРСИТЕТНа правах рукописиКижаева Наталья АлександровнаИССЛЕДОВАНИЕ ПАТТЕРНОВ ВТЕКСТАХ НА ОСНОВЕДИНАМИЧЕСКИХ МОДЕЛЕЙ01.01.09 —Дискретная математика и математическая кибернетикаДиссертацияна соискание ученой степеникандидата физико-математических наукНаучный руководитель:доктор физико-математических наук, профессорОлег Николаевич ГраничинСанкт-Петербург2018ОглавлениеВведение .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Интеллектуальный анализ текстов1.1 Основные задачи . . . . . . . . . . . . . . . . .1.2 Представление текста . . . . . . . . . . . . . .1.2.1 Предобработка текстов . . .

. . . . . .1.2.2 Векторная модель . . . . . . . . . . . .1.3 Классификация . . . . . . . . . . . . . . . . . .1.3.1 Деревья решений . . . . . . . . . . . . .1.3.2 Байесовский классификатор . . . . . . .1.3.3 Линейный классификатор . . . . .

. . .1.3.4 Классификатор k ближайших соседей .1.4 Кластеризация . . . . . . . . . . . . . . . . . .1.4.1 Иерархическая кластеризация . . . . .1.4.2 Алгоритм k-средних . . . . . . . . . . .1.4.3 Тематическое моделирование . . . . . .1.5 Меры сходства и различия . . . . . . . . . . .1.5.1 Определение мер сходства и различия иих свойства .

. . . . . . . . . . . . . . .1.5.2 Ядерные функции и их свойства . . . .4..............121214141517181821232427293032. . . . . . .. . . . . . .3236....................................................................................2 Динамическая модель текстовых документов2.1 Динамическая модель текстовыхдокументов . . . . . . . .

. . . . . . . . . . . . . . . . . . .2.2 Паттерны динамической модели . . . . . . . . . . . . . . .2.2.1 Кластеризация спектральных представлений . . . .2.2.2 Кластеризация по расстояниям, основанным на ядрах40404242453 Экспериментальные результаты493.1 Определение авторства текста . . .

. . . . . . . . . . . . . 4923.2 Классификация текстов на основеалгоритма кластеризации с помощьюспектрального представления . . . . . . . . . . . . . . . . .3.3 Классификация текстов на основеалгоритма кластеризации с помощьюрасстояний на ядрах . . . . . . . . . . . . . . . . . . . . . .57Заключение . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7273352ВведениеАктуальность темы. На протяжении последних десятилетий наблюдается значительный рост объема текстовой информации, генерируемойкаждый день.

Этот огромный объем данных представляется в различныхформах, таких как записи в социальных сетях, записи осмотра пациентов, данные медицинского страхования, статьи новостных агентств, отчеты о работе технических устройств и т.п. Текстовые данные — это пример неструктурированной информации, которая легко обрабатывается ивоспринимается человеком, но является гораздо более сложной для понимания компьютером. Задача интеллектуального анализа текстов состоитв извлечении полезной информации из неструктурированных текстов, ихавтоматической категоризации, классификации и кластеризации.

Автоматизированный анализ позволяет исследователям не только собиратьи изучать объем материала, анализ которого вручную невозможен, но ивыявлять закономерности, незаметные при простом прочтении.Интеллектуальный анализ текстов является частью более ширококласса задач интеллектуального анализа данных, машинного обучения итеории распознавания образов. Современные алгоритмы машинного обучения (классификации, кластеризации) и теории распознавания образовбазируются на работах С.А.Айвазяна [1], М.А.Айзермана [2],Э.М.Бравермана [2], В.Н.Вапника [3], Ф.Розенблатта [121],Л.И.Розоноэра [2], Р.А.Фишера [10], В.Н.Фомина [11], И.Форджи [56],К.Фукунаги [58], Я.З.Цыпкина [12], [13], А.Я.Червоненкиса [3],Дж.Хартигана [69], Дж.Хопфилда [72] и др.

Исследования рандомизированного машинного обучения начались с основополагающей статьи Вадьясагара [142] и в прошедшие десятилетия тема активно изучалась внаучной литературе (О.Н. Граничин [61], М.Кампи [32], Б.Т. Поляк [8],Ю.С. Попков [116], М.В.Хлебников [8]).Большинство методов интеллектуального анализа текстов рассматривают текст как статический объект, не учитывая процесс его написания или динамику последовательности изложения. В то же время дина4мика текстового документа может служить его отличительной характеристикой, признаком, по которому в множестве текстов можно выделитьгруппы схожих документов. Это, в свою очередь, открывает множествосфер применения: определение авторства текстов, выявление плагиата,поиск аномалий в отчетах о работе технических устройств и т. п.Перечисленные факторы актуализируют разработки методов классификации текстовых документов, которые кроме статических характеристик текстов и их фрагментов учитывали бы связи (корреляции) междупоследовательностями отрывков (фрагментов текстовых документов).Целью работы является исследование паттернов динамической модели текстовых документов.Для достижения цели было необходимо решить следующие задачи:• Разработать метод построения динамических моделей текстовыхдокументов.• Исследовать, является ли динамика изменений фрагментов текстового документа его отличительной характеристикой.• Разработать и обосновать алгоритмы кластеризации динамическихмоделей.Методы исследования.

В диссертации применяются методы теорииоценивания и оптимизации, функционального анализа, теории вероятностей и математической статистики.Основные результаты. В работе получены следующие основные научные результаты:1. Предложен метод построения динамических моделей текстовых документов.2. Разработан и теоретически обоснован алгоритм классификации фрагментов текстовых документов, основанный на кластеризации спектрального представления динамических моделей текстовых документов.53. Разработан и теоретически обоснован алгоритм классификации фрагментов текстовых документов, основанный на кластеризации динамических моделей текстовых документов с помощью расстояний наядрах.Научная новизна. Все основные научные результаты диссертации являются новыми.Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в предложенном новом методе построениядинамической модели текста и в обосновании разработанных новых алгоритмов классификации фрагментов текстовых документов.Предложенные новые методы находят применение во множестве прикладных и исследовательских задач: определение авторства текстов в литературных исследованиях, криминалистике, выявление плагиата и т.

п.Анализ неструктурированной текстовой информации в отчетах технических устройств с помощью предложенного алгоритма предоставляетвозможность выявления неоднородности стиля, а, значит, и возможногосбоя технического устройства.Апробация работы. Материалы диссертации докладывались на семинарах кафедр системного программирования и теоретической кибернетики математико-механического факультета СПбГУ, семинарах Лаборатории анализа и моделирования социальных процессов СПбГУ, семинарах факультета интеллектуальной обработки информации колледжаОРТ им.

Брауде (Кармиэль, Израиль), на международных конференциях AINL-ISMW FRUCT Artificial Intelligence and Natural Language &Information Extraction, Social Media and Web Search (9-14 ноября, 2015,Санкт-Петербург, Россия), XXVIII Международная научная конференция по источниковедению и историографии стран Азии и Африки “Азияи Африка в меняющимся мире” (22-24 апреля, 2015, Санкт-Петербург,Россия), 2015 IEEE International Symposium on Intelligent Control (September21-23, 2015, Sydney, Australia), 2017 IEEE Conference on Control Technologyand Applications (August 27-30, 2017, Coast, Hawaii, USA), 8th InternationalScientific Conference on Physics and Control (PhysCon 2017) (July 17-19,6Florence, Italy).Результаты диссертации были использованы в работах по грантамСПбГУ:• “Исследование возможностей кластеризации рукописных текстовна арабском языке” 6.37.181.2014.• “Определение формальных характеристик арабографических рукописей и их цифровая обработка” 2.37.175.2014.Публикации.

Основные результаты исследований опубликованы в 7работах [5], [6], [7], [16], [60], [87], [88]. Из них три [16], [60], [88] опубликованы в изданиях, индексируемых в базе данных Scopus, и одна [87]в журнале, входящем в перечень рецензируемых научных журналов, вкоторых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук.Работы [7], [16], [60], [87], [88] написаны в соавторстве. В работах [7],[16], [60], [87], [88] Н.А. Кижаевой принадлежат формулировки и доказательства теорем, результаты моделирования, а соавторам — постановказадачи и выбор направления решения.Структура и объем диссертации.

Диссертация состоит из введения,трех глав, заключения, списка литературы, включающего 150 источников. Текст занимает 86 страниц и содержит 10 рисунков.Во введении обосновывается актуальность темы диссертационной работы, формулируется цель и ставятся задачи исследования, кратко излагаются основные результаты.В первой главе вводятся основные понятия и постановки задач исследований предметной области.В п.

1.1 рассматриваются основные проблемы и задачи, которые возникают в сфере интеллектуального анализа текстовых данных. Ключевые задачи интеллектуального анализа текстов включают в себя извлечение информации, реферирование, обучение с учителем, обучение безучителя, извлечение мнений, анализ биомедицинских данных.7В п. 1.2 перечисляются этапы предварительной обработки и даетсяописание распространенных моделей представления текстовых данных.Предобработка текстов — важный этап большинства алгоритмов. Этаппредобработки обычно состоит из токенизации, фильтрации, лемматизации и стемминга. Векторная модель — представление текстов в видевекторов из некоторого общего для всех текстов векторного пространства.В п.

Характеристики

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6439
Авторов
на СтудИзбе
306
Средний доход
с одного платного файла
Обучение Подробнее