Диссертация (1149537)
Текст из файла
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙУНИВЕРСИТЕТНа правах рукописиКижаева Наталья АлександровнаИССЛЕДОВАНИЕ ПАТТЕРНОВ ВТЕКСТАХ НА ОСНОВЕДИНАМИЧЕСКИХ МОДЕЛЕЙ01.01.09 —Дискретная математика и математическая кибернетикаДиссертацияна соискание ученой степеникандидата физико-математических наукНаучный руководитель:доктор физико-математических наук, профессорОлег Николаевич ГраничинСанкт-Петербург2018ОглавлениеВведение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Интеллектуальный анализ текстов1.1 Основные задачи . . . . . . . . . . . . . . . . .1.2 Представление текста . . . . . . . . . . . . . .1.2.1 Предобработка текстов . . .
. . . . . .1.2.2 Векторная модель . . . . . . . . . . . .1.3 Классификация . . . . . . . . . . . . . . . . . .1.3.1 Деревья решений . . . . . . . . . . . . .1.3.2 Байесовский классификатор . . . . . . .1.3.3 Линейный классификатор . . . . .
. . .1.3.4 Классификатор k ближайших соседей .1.4 Кластеризация . . . . . . . . . . . . . . . . . .1.4.1 Иерархическая кластеризация . . . . .1.4.2 Алгоритм k-средних . . . . . . . . . . .1.4.3 Тематическое моделирование . . . . . .1.5 Меры сходства и различия . . . . . . . . . . .1.5.1 Определение мер сходства и различия иих свойства .
. . . . . . . . . . . . . . .1.5.2 Ядерные функции и их свойства . . . .4..............121214141517181821232427293032. . . . . . .. . . . . . .3236....................................................................................2 Динамическая модель текстовых документов2.1 Динамическая модель текстовыхдокументов . . . . . . . .
. . . . . . . . . . . . . . . . . . .2.2 Паттерны динамической модели . . . . . . . . . . . . . . .2.2.1 Кластеризация спектральных представлений . . . .2.2.2 Кластеризация по расстояниям, основанным на ядрах40404242453 Экспериментальные результаты493.1 Определение авторства текста . . .
. . . . . . . . . . . . . 4923.2 Классификация текстов на основеалгоритма кластеризации с помощьюспектрального представления . . . . . . . . . . . . . . . . .3.3 Классификация текстов на основеалгоритма кластеризации с помощьюрасстояний на ядрах . . . . . . . . . . . . . . . . . . . . . .57Заключение . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7273352ВведениеАктуальность темы. На протяжении последних десятилетий наблюдается значительный рост объема текстовой информации, генерируемойкаждый день.
Этот огромный объем данных представляется в различныхформах, таких как записи в социальных сетях, записи осмотра пациентов, данные медицинского страхования, статьи новостных агентств, отчеты о работе технических устройств и т.п. Текстовые данные — это пример неструктурированной информации, которая легко обрабатывается ивоспринимается человеком, но является гораздо более сложной для понимания компьютером. Задача интеллектуального анализа текстов состоитв извлечении полезной информации из неструктурированных текстов, ихавтоматической категоризации, классификации и кластеризации.
Автоматизированный анализ позволяет исследователям не только собиратьи изучать объем материала, анализ которого вручную невозможен, но ивыявлять закономерности, незаметные при простом прочтении.Интеллектуальный анализ текстов является частью более ширококласса задач интеллектуального анализа данных, машинного обучения итеории распознавания образов. Современные алгоритмы машинного обучения (классификации, кластеризации) и теории распознавания образовбазируются на работах С.А.Айвазяна [1], М.А.Айзермана [2],Э.М.Бравермана [2], В.Н.Вапника [3], Ф.Розенблатта [121],Л.И.Розоноэра [2], Р.А.Фишера [10], В.Н.Фомина [11], И.Форджи [56],К.Фукунаги [58], Я.З.Цыпкина [12], [13], А.Я.Червоненкиса [3],Дж.Хартигана [69], Дж.Хопфилда [72] и др.
Исследования рандомизированного машинного обучения начались с основополагающей статьи Вадьясагара [142] и в прошедшие десятилетия тема активно изучалась внаучной литературе (О.Н. Граничин [61], М.Кампи [32], Б.Т. Поляк [8],Ю.С. Попков [116], М.В.Хлебников [8]).Большинство методов интеллектуального анализа текстов рассматривают текст как статический объект, не учитывая процесс его написания или динамику последовательности изложения. В то же время дина4мика текстового документа может служить его отличительной характеристикой, признаком, по которому в множестве текстов можно выделитьгруппы схожих документов. Это, в свою очередь, открывает множествосфер применения: определение авторства текстов, выявление плагиата,поиск аномалий в отчетах о работе технических устройств и т. п.Перечисленные факторы актуализируют разработки методов классификации текстовых документов, которые кроме статических характеристик текстов и их фрагментов учитывали бы связи (корреляции) междупоследовательностями отрывков (фрагментов текстовых документов).Целью работы является исследование паттернов динамической модели текстовых документов.Для достижения цели было необходимо решить следующие задачи:• Разработать метод построения динамических моделей текстовыхдокументов.• Исследовать, является ли динамика изменений фрагментов текстового документа его отличительной характеристикой.• Разработать и обосновать алгоритмы кластеризации динамическихмоделей.Методы исследования.
В диссертации применяются методы теорииоценивания и оптимизации, функционального анализа, теории вероятностей и математической статистики.Основные результаты. В работе получены следующие основные научные результаты:1. Предложен метод построения динамических моделей текстовых документов.2. Разработан и теоретически обоснован алгоритм классификации фрагментов текстовых документов, основанный на кластеризации спектрального представления динамических моделей текстовых документов.53. Разработан и теоретически обоснован алгоритм классификации фрагментов текстовых документов, основанный на кластеризации динамических моделей текстовых документов с помощью расстояний наядрах.Научная новизна. Все основные научные результаты диссертации являются новыми.Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в предложенном новом методе построениядинамической модели текста и в обосновании разработанных новых алгоритмов классификации фрагментов текстовых документов.Предложенные новые методы находят применение во множестве прикладных и исследовательских задач: определение авторства текстов в литературных исследованиях, криминалистике, выявление плагиата и т.
п.Анализ неструктурированной текстовой информации в отчетах технических устройств с помощью предложенного алгоритма предоставляетвозможность выявления неоднородности стиля, а, значит, и возможногосбоя технического устройства.Апробация работы. Материалы диссертации докладывались на семинарах кафедр системного программирования и теоретической кибернетики математико-механического факультета СПбГУ, семинарах Лаборатории анализа и моделирования социальных процессов СПбГУ, семинарах факультета интеллектуальной обработки информации колледжаОРТ им.
Брауде (Кармиэль, Израиль), на международных конференциях AINL-ISMW FRUCT Artificial Intelligence and Natural Language &Information Extraction, Social Media and Web Search (9-14 ноября, 2015,Санкт-Петербург, Россия), XXVIII Международная научная конференция по источниковедению и историографии стран Азии и Африки “Азияи Африка в меняющимся мире” (22-24 апреля, 2015, Санкт-Петербург,Россия), 2015 IEEE International Symposium on Intelligent Control (September21-23, 2015, Sydney, Australia), 2017 IEEE Conference on Control Technologyand Applications (August 27-30, 2017, Coast, Hawaii, USA), 8th InternationalScientific Conference on Physics and Control (PhysCon 2017) (July 17-19,6Florence, Italy).Результаты диссертации были использованы в работах по грантамСПбГУ:• “Исследование возможностей кластеризации рукописных текстовна арабском языке” 6.37.181.2014.• “Определение формальных характеристик арабографических рукописей и их цифровая обработка” 2.37.175.2014.Публикации.
Основные результаты исследований опубликованы в 7работах [5], [6], [7], [16], [60], [87], [88]. Из них три [16], [60], [88] опубликованы в изданиях, индексируемых в базе данных Scopus, и одна [87]в журнале, входящем в перечень рецензируемых научных журналов, вкоторых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук.Работы [7], [16], [60], [87], [88] написаны в соавторстве. В работах [7],[16], [60], [87], [88] Н.А. Кижаевой принадлежат формулировки и доказательства теорем, результаты моделирования, а соавторам — постановказадачи и выбор направления решения.Структура и объем диссертации.
Диссертация состоит из введения,трех глав, заключения, списка литературы, включающего 150 источников. Текст занимает 86 страниц и содержит 10 рисунков.Во введении обосновывается актуальность темы диссертационной работы, формулируется цель и ставятся задачи исследования, кратко излагаются основные результаты.В первой главе вводятся основные понятия и постановки задач исследований предметной области.В п.
1.1 рассматриваются основные проблемы и задачи, которые возникают в сфере интеллектуального анализа текстовых данных. Ключевые задачи интеллектуального анализа текстов включают в себя извлечение информации, реферирование, обучение с учителем, обучение безучителя, извлечение мнений, анализ биомедицинских данных.7В п. 1.2 перечисляются этапы предварительной обработки и даетсяописание распространенных моделей представления текстовых данных.Предобработка текстов — важный этап большинства алгоритмов. Этаппредобработки обычно состоит из токенизации, фильтрации, лемматизации и стемминга. Векторная модель — представление текстов в видевекторов из некоторого общего для всех текстов векторного пространства.В п.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.