Главная » Просмотр файлов » Автореферат

Автореферат (1149535)

Файл №1149535 Автореферат (Исследование паттернов в текстах на основе динамических моделей)Автореферат (1149535)2019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

На правах рукописиКИЖАЕВА Наталья АлександровнаИССЛЕДОВАНИЕ ПАТТЕРНОВ В ТЕКСТАХ НА ОСНОВЕДИНАМИЧЕСКИХ МОДЕЛЕЙ01.01.09 — дискретная математика иматематическая кибернетикаАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата физико-математических наукСанкт-Петербург2018Работа выполнена в Санкт-Петербургском государственном университете.Научный руководитель:доктор физико-математических наук,профессор Граничин Олег НиколаевичОфициальные оппоненты:Хлебников Михаил Владимирович,доктор физико-математических наук,профессор РАН, ФГБУН «Институт проблемуправления им. В.А.

Трапезникова» РАН,главный научный сотрудник, и.о. заведующеголабораторией адаптивных и робастных системим. Я.З. ЦыпкинаПетухова Нина Дмитриевна,кандидат физико-математических наук,ФГБОУ ВО «Санкт-Петербургский государственный морской технический университет»,доцентВедущая организация:Институт системного анализаФедерального исследовательского центра«Информатика и управление» РАНЗащита состоится «30» мая 2018 года в 18 часов на заседании диссертационногосовета Д 212.232.29 на базе Санкт-Петербургского государственного университетапо адресу: 199178, Санкт-Петербург, 10 линия В.О., д. 33/35, ауд.

74.С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького СанктПетербургского государственного университета по адресу: 199034, Санкт-Петербург,Университетская наб., д. 7/9. и на сайте https://disser.spbu.ru/files/disser2/disser/d0wHQhP77v.pdfАвтореферат разослан «»Ученый секретарьдиссертационного совета Д 212.232.29,доктор физико-математических наук,профессор2018 г.В. М.

НежинскийОбщая характеристика работыАктуальность темы. На протяжении последних десятилетий наблюдается значительный рост объема текстовой информации, генерируемой каждый день. Этотогромный объем данных представляется в различных формах, таких, как записив социальных сетях, записи осмотра пациентов, данные медицинского страхования, статьи новостных агентств, отчеты о работе технических устройств и т. п.Текстовые данные — это пример неструктурированной информации, которая легкообрабатывается и воспринимается человеком, но является гораздо более сложнойдля понимания компьютером.

Задача интеллектуального анализа текстов состоитв извлечении полезной информации из неструктурированных текстов, их автоматической категоризации, классификации и кластеризации. Автоматизированныйанализ позволяет исследователям не только собирать и изучать объем материала,анализ которого вручную невозможен, но и выявлять закономерности, незаметныепри простом прочтении.Интеллектуальный анализ текстов является частью более широкого класса задач интеллектуального анализа данных, машинного обучения и теории распознавания образов.

Современные алгоритмы машинного обучения (классификации, кластеризации) и теории распознавания образов базируются на работах С. А. Айвазяна, М. А. Айзермана, Э. М. Бравермана, В. Н. Вапника, Ф. Розенблатта, Л. И. Розоноэра, Р. А. Фишера , В. Н. Фомина, К.Фукунаги, Я.З.Цыпкина, А.Я.Червоненкиса,Дж.Хартигана, Дж.Хопфилда, В. А. Якубовича и др. Многие современные системыраспознавания образов основаны на принципах нейронных сетей (см.

С. Хайкин,Ф. Уоссермен, А. В. Тимофеев, А. И. Галушкин и др.)Большинство методов интеллектуального анализа текстов рассматривает тексткак статический объект, не учитывая процесс его написания или динамику последовательности изложения. В то же время динамика текстового документа можетслужить его отличительной характеристикой, признаком, по которому в множестве текстов можно выделить группы схожих документов. Это, в свою очередь,открывает множество сфер применения: определение авторства текстов, выявление плагиата, поиск аномалий в отчетах о работе технических устройств.Перечисленные факторы актуализируют разработки методов классификациитекстовых документов, которые кроме статических характеристик текстов учитывали бы связи (корреляции) между последовательностями их фрагментов.3Целью работы является исследование паттернов динамической модели текстовых документов.Были поставлены и решены следующие задачи:• Разработать метод построения динамических моделей текстовых документов.• Исследовать, является ли динамика изменений фрагментов текстового документа его отличительной характеристикой.• Разработать и обосновать алгоритмы кластеризации динамических моделей.Методы исследования.

В диссертации применяются методы теории оцениванияи оптимизации, функционального анализа, теории вероятностей и математическойстатистики, машинного обучения и компьютерной лингвистики.Основные результаты. В ходе выполнения работы получены следующие научныерезультаты:1. Предложен метод построения динамических моделей текстовых документов.2.

Разработан и теоретически обоснован алгоритм классификации фрагментовтекстовых документов, основанный на кластеризации спектрального представления динамических моделей текстовых документов.3. Разработан и теоретически обоснован алгоритм классификации фрагментовтекстовых документов, основанный на кластеризации динамических моделейтекстовых документов с помощью расстояний на ядрах.Научная новизна. Все основные научные результаты диссертации являются новыми.Теоретическая ценность и практическая значимость.

Теоретическая ценность работы состоит в предложенном методе построения динамической моделитекста, разработке и обосновании алгоритмов классификации фрагментов текстовых документов.Предложенные новые методы находят применение в множестве прикладных задач и исследовательских задач. Определение авторства текстов в литературныхисследованиях, в криминалистике, при выявлении плагиата. Анализ неструктурированной текстовой информации в отчетах технических устройств с помощью4предложенного алгоритма предоставляет возможность выявления неоднородностистиля, а, значит, и возможного сбоя технического устройства.Степень достоверности и апробация работы.

Достоверность основных утверждений диссертации подтверждается строгостью математических доказательств.Работоспособность предлагаемых методов подтверждена численными экспериментами.Материалы диссертации докладывались на семинарах кафедр системного программирования и теоретической кибернетики математико-механического факультета СПбГУ, семинарах Лаборатории анализа и моделирования социальных процессов СПбГУ, семинарах факультета интеллектуальной обработки информацииколледжа ОРТ им.

Брауде (Кармиэль, Израиль), на международных конференциях AINL-ISMW FRUCT Artificial Intelligence and Natural Language & InformationExtraction, Social Media and Web Search (9-14 ноября, 2015, Санкт-Петербург, Россия), 2015 IEEE International Symposium on Intelligent Control (September 21-23,2015, Sydney, Australia), 8th International Scientific Conference on Physics and Control(PhysCon 2017) (July 17-19, Florence, Italy), 2017 IEEE Conference on Control Technology and Applications (August 27-30, 2017, Coast, Hawaii, USA).Результаты диссертации были использованы в работах по грантам СПбГУ “Исследование возможностей кластеризации рукописных текстов на арабском языке”6.37.181.2014, “Определение формальных характеристик арабографических рукописей и их цифровая обработка” 2.37.175.2014.Публикация результатов. Основные результаты исследований опубликованы вработах [1-7]. Из них четыре [1-4] в периодических рецензируемых изданиях, индексируемых в наукометрических базах данных SCOPUS и Web of Science или включенных в перечень научных журналов, рекомендованных ВАК.Работы [1-5] написаны в соавторстве.

В работах [1-5] Н.А. Кижаевой принадлежат формулировки и доказательства теорем, результаты моделирования, а соавторам — постановки задач и выбор методов решения.Структура и объем диссертации. Диссертация состоит из введения, трех глав,заключения, списка литературы, включающего 150 источников. Текст занимает 86страниц и содержит 10 рисунков.5Содержание работыВо введении обосновывается актуальность темы диссертационной работы икратко излагаются основные результаты.В первой главе “Интеллектуальный анализ текстов” приводится краткий обзор литературы по теме исследования, вводятся основные понятия и обозначения,описываются постановки задач исследований предметной области.В п.

1.1 рассматриваются основные проблемы и задачи, которые возникают всфере интеллектуального анализа текстовых данных. Ключевые задачи интеллектуального анализа текстов включают в себя извлечение информации, реферирование, обучение с учителем, обучение без учителя, извлечение мнений, анализ биомедицинских данных и т. п.В п. 1.2 перечисляются этапы предварительной обработки текстовых документов и дается описание распространенных моделей представления текстовых данных.

Предобработка текстов — важный этап большинства алгоритмов. Этап предобработки обычно состоит из токенизации, фильтрации, лемматизации и стемминга.Векторная модель — представление текстов в виде векторов из некоторого общегодля всех текстов векторного пространства.В пп. 1.3 и 1.4 формулируются проблемы классификации и кластеризации иприводятся классические алгоритмы для их решения.0Пусть Z = {zj }mj=1 , ρ(z, z ) — метрика. Задача кластеризации заключается внахождении разбиения множества Z на k кластеров таких, чтоT k (Z) = {C1 , . . .

, Ck },Z=k[Ci ,Ci ∩ Cj = ∅, i 6= j.i=1kДля разбиения T (Z) функция γT k : Z → {1, . . . , k}, соотносящая точки кластерам, определена следующим образомγT k (z) = i ⇔ z ∈ Ci , i = 1, . . . , k.Таким образомCi = {z ∈ Z|γT k (z) = i}.6Для любого k для множества Z существуют различные разбиения T k (Z).Разбиение должно обладать следующим свойством: объекты, принадлежащиеодному кластеру более “похожи” между собой, чем объекты, принадлежащие разным кластерам. Определим qi — функцию “близости” к кластеру i, для любогоi = 1, .

. . , k. Рассмотрим задачу минимизацииkf (T , z) =kXγT k (z)qi (T k , z) → min .(1)Tki=1Результат минимизации функции (1) зависит от z. Пусть вероятностное распределение P (·) определено на множестве Z. Тогда можно рассматривать задачу минимизации функции качестваkkF (T ) = Ef (T , z) =k ZXqi (T k , z)P (dz) → minTkCii=1(2)В некоторых случаях можно ограничиться разбиением T k , которое полностьюопределяется множеством k векторов c1 , . . . , ck ∈ Rm , которые формируют m × kматрицу C = (c1 , . . . , ck ) и для i = 1, . . .

, k и z ∈ Z функции qi (·, z) зависят толькоот ci , то есть qi (·, ·) : Rm × Z → R. Правило разбиения можно задать следующимобразомCi (Z) = {z ∈ Z :qi (ci , z) < qj (cj , z), j = 1, . . . , i − 1qi (ci , z) ≤ qj (cj , z), j = i + 1, . . . , k}, i = 1, . . . , k,которое минимизирует (1). Вектора zi , i = 1, . . . , k интерпретируются как центрыкластеров, когда Z — подмножество евклидова пространства Rm . В этом случаефункционал качества (2) принимает формуkF (T ) =k ZXi=1qi (ci , z)P (dz) → min .TkCi(3)и может быть переписан в видеZhl(C, z), q(C, z)iP (dz) → min,F (C) =CZ7(4)где l(C, z) и q(C, z) — вектора длины k такие, что первый состоит из значенийхарактеристической функции 1Ci (C) (C, z), а второй из qi (ci , z), i = 1, . . .

Характеристики

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6521
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее