Автореферат (1149535)
Текст из файла
На правах рукописиКИЖАЕВА Наталья АлександровнаИССЛЕДОВАНИЕ ПАТТЕРНОВ В ТЕКСТАХ НА ОСНОВЕДИНАМИЧЕСКИХ МОДЕЛЕЙ01.01.09 — дискретная математика иматематическая кибернетикаАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата физико-математических наукСанкт-Петербург2018Работа выполнена в Санкт-Петербургском государственном университете.Научный руководитель:доктор физико-математических наук,профессор Граничин Олег НиколаевичОфициальные оппоненты:Хлебников Михаил Владимирович,доктор физико-математических наук,профессор РАН, ФГБУН «Институт проблемуправления им. В.А.
Трапезникова» РАН,главный научный сотрудник, и.о. заведующеголабораторией адаптивных и робастных системим. Я.З. ЦыпкинаПетухова Нина Дмитриевна,кандидат физико-математических наук,ФГБОУ ВО «Санкт-Петербургский государственный морской технический университет»,доцентВедущая организация:Институт системного анализаФедерального исследовательского центра«Информатика и управление» РАНЗащита состоится «30» мая 2018 года в 18 часов на заседании диссертационногосовета Д 212.232.29 на базе Санкт-Петербургского государственного университетапо адресу: 199178, Санкт-Петербург, 10 линия В.О., д. 33/35, ауд.
74.С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького СанктПетербургского государственного университета по адресу: 199034, Санкт-Петербург,Университетская наб., д. 7/9. и на сайте https://disser.spbu.ru/files/disser2/disser/d0wHQhP77v.pdfАвтореферат разослан «»Ученый секретарьдиссертационного совета Д 212.232.29,доктор физико-математических наук,профессор2018 г.В. М.
НежинскийОбщая характеристика работыАктуальность темы. На протяжении последних десятилетий наблюдается значительный рост объема текстовой информации, генерируемой каждый день. Этотогромный объем данных представляется в различных формах, таких, как записив социальных сетях, записи осмотра пациентов, данные медицинского страхования, статьи новостных агентств, отчеты о работе технических устройств и т. п.Текстовые данные — это пример неструктурированной информации, которая легкообрабатывается и воспринимается человеком, но является гораздо более сложнойдля понимания компьютером.
Задача интеллектуального анализа текстов состоитв извлечении полезной информации из неструктурированных текстов, их автоматической категоризации, классификации и кластеризации. Автоматизированныйанализ позволяет исследователям не только собирать и изучать объем материала,анализ которого вручную невозможен, но и выявлять закономерности, незаметныепри простом прочтении.Интеллектуальный анализ текстов является частью более широкого класса задач интеллектуального анализа данных, машинного обучения и теории распознавания образов.
Современные алгоритмы машинного обучения (классификации, кластеризации) и теории распознавания образов базируются на работах С. А. Айвазяна, М. А. Айзермана, Э. М. Бравермана, В. Н. Вапника, Ф. Розенблатта, Л. И. Розоноэра, Р. А. Фишера , В. Н. Фомина, К.Фукунаги, Я.З.Цыпкина, А.Я.Червоненкиса,Дж.Хартигана, Дж.Хопфилда, В. А. Якубовича и др. Многие современные системыраспознавания образов основаны на принципах нейронных сетей (см.
С. Хайкин,Ф. Уоссермен, А. В. Тимофеев, А. И. Галушкин и др.)Большинство методов интеллектуального анализа текстов рассматривает тексткак статический объект, не учитывая процесс его написания или динамику последовательности изложения. В то же время динамика текстового документа можетслужить его отличительной характеристикой, признаком, по которому в множестве текстов можно выделить группы схожих документов. Это, в свою очередь,открывает множество сфер применения: определение авторства текстов, выявление плагиата, поиск аномалий в отчетах о работе технических устройств.Перечисленные факторы актуализируют разработки методов классификациитекстовых документов, которые кроме статических характеристик текстов учитывали бы связи (корреляции) между последовательностями их фрагментов.3Целью работы является исследование паттернов динамической модели текстовых документов.Были поставлены и решены следующие задачи:• Разработать метод построения динамических моделей текстовых документов.• Исследовать, является ли динамика изменений фрагментов текстового документа его отличительной характеристикой.• Разработать и обосновать алгоритмы кластеризации динамических моделей.Методы исследования.
В диссертации применяются методы теории оцениванияи оптимизации, функционального анализа, теории вероятностей и математическойстатистики, машинного обучения и компьютерной лингвистики.Основные результаты. В ходе выполнения работы получены следующие научныерезультаты:1. Предложен метод построения динамических моделей текстовых документов.2.
Разработан и теоретически обоснован алгоритм классификации фрагментовтекстовых документов, основанный на кластеризации спектрального представления динамических моделей текстовых документов.3. Разработан и теоретически обоснован алгоритм классификации фрагментовтекстовых документов, основанный на кластеризации динамических моделейтекстовых документов с помощью расстояний на ядрах.Научная новизна. Все основные научные результаты диссертации являются новыми.Теоретическая ценность и практическая значимость.
Теоретическая ценность работы состоит в предложенном методе построения динамической моделитекста, разработке и обосновании алгоритмов классификации фрагментов текстовых документов.Предложенные новые методы находят применение в множестве прикладных задач и исследовательских задач. Определение авторства текстов в литературныхисследованиях, в криминалистике, при выявлении плагиата. Анализ неструктурированной текстовой информации в отчетах технических устройств с помощью4предложенного алгоритма предоставляет возможность выявления неоднородностистиля, а, значит, и возможного сбоя технического устройства.Степень достоверности и апробация работы.
Достоверность основных утверждений диссертации подтверждается строгостью математических доказательств.Работоспособность предлагаемых методов подтверждена численными экспериментами.Материалы диссертации докладывались на семинарах кафедр системного программирования и теоретической кибернетики математико-механического факультета СПбГУ, семинарах Лаборатории анализа и моделирования социальных процессов СПбГУ, семинарах факультета интеллектуальной обработки информацииколледжа ОРТ им.
Брауде (Кармиэль, Израиль), на международных конференциях AINL-ISMW FRUCT Artificial Intelligence and Natural Language & InformationExtraction, Social Media and Web Search (9-14 ноября, 2015, Санкт-Петербург, Россия), 2015 IEEE International Symposium on Intelligent Control (September 21-23,2015, Sydney, Australia), 8th International Scientific Conference on Physics and Control(PhysCon 2017) (July 17-19, Florence, Italy), 2017 IEEE Conference on Control Technology and Applications (August 27-30, 2017, Coast, Hawaii, USA).Результаты диссертации были использованы в работах по грантам СПбГУ “Исследование возможностей кластеризации рукописных текстов на арабском языке”6.37.181.2014, “Определение формальных характеристик арабографических рукописей и их цифровая обработка” 2.37.175.2014.Публикация результатов. Основные результаты исследований опубликованы вработах [1-7]. Из них четыре [1-4] в периодических рецензируемых изданиях, индексируемых в наукометрических базах данных SCOPUS и Web of Science или включенных в перечень научных журналов, рекомендованных ВАК.Работы [1-5] написаны в соавторстве.
В работах [1-5] Н.А. Кижаевой принадлежат формулировки и доказательства теорем, результаты моделирования, а соавторам — постановки задач и выбор методов решения.Структура и объем диссертации. Диссертация состоит из введения, трех глав,заключения, списка литературы, включающего 150 источников. Текст занимает 86страниц и содержит 10 рисунков.5Содержание работыВо введении обосновывается актуальность темы диссертационной работы икратко излагаются основные результаты.В первой главе “Интеллектуальный анализ текстов” приводится краткий обзор литературы по теме исследования, вводятся основные понятия и обозначения,описываются постановки задач исследований предметной области.В п.
1.1 рассматриваются основные проблемы и задачи, которые возникают всфере интеллектуального анализа текстовых данных. Ключевые задачи интеллектуального анализа текстов включают в себя извлечение информации, реферирование, обучение с учителем, обучение без учителя, извлечение мнений, анализ биомедицинских данных и т. п.В п. 1.2 перечисляются этапы предварительной обработки текстовых документов и дается описание распространенных моделей представления текстовых данных.
Предобработка текстов — важный этап большинства алгоритмов. Этап предобработки обычно состоит из токенизации, фильтрации, лемматизации и стемминга.Векторная модель — представление текстов в виде векторов из некоторого общегодля всех текстов векторного пространства.В пп. 1.3 и 1.4 формулируются проблемы классификации и кластеризации иприводятся классические алгоритмы для их решения.0Пусть Z = {zj }mj=1 , ρ(z, z ) — метрика. Задача кластеризации заключается внахождении разбиения множества Z на k кластеров таких, чтоT k (Z) = {C1 , . . .
, Ck },Z=k[Ci ,Ci ∩ Cj = ∅, i 6= j.i=1kДля разбиения T (Z) функция γT k : Z → {1, . . . , k}, соотносящая точки кластерам, определена следующим образомγT k (z) = i ⇔ z ∈ Ci , i = 1, . . . , k.Таким образомCi = {z ∈ Z|γT k (z) = i}.6Для любого k для множества Z существуют различные разбиения T k (Z).Разбиение должно обладать следующим свойством: объекты, принадлежащиеодному кластеру более “похожи” между собой, чем объекты, принадлежащие разным кластерам. Определим qi — функцию “близости” к кластеру i, для любогоi = 1, .
. . , k. Рассмотрим задачу минимизацииkf (T , z) =kXγT k (z)qi (T k , z) → min .(1)Tki=1Результат минимизации функции (1) зависит от z. Пусть вероятностное распределение P (·) определено на множестве Z. Тогда можно рассматривать задачу минимизации функции качестваkkF (T ) = Ef (T , z) =k ZXqi (T k , z)P (dz) → minTkCii=1(2)В некоторых случаях можно ограничиться разбиением T k , которое полностьюопределяется множеством k векторов c1 , . . . , ck ∈ Rm , которые формируют m × kматрицу C = (c1 , . . . , ck ) и для i = 1, . . .
, k и z ∈ Z функции qi (·, z) зависят толькоот ci , то есть qi (·, ·) : Rm × Z → R. Правило разбиения можно задать следующимобразомCi (Z) = {z ∈ Z :qi (ci , z) < qj (cj , z), j = 1, . . . , i − 1qi (ci , z) ≤ qj (cj , z), j = i + 1, . . . , k}, i = 1, . . . , k,которое минимизирует (1). Вектора zi , i = 1, . . . , k интерпретируются как центрыкластеров, когда Z — подмножество евклидова пространства Rm . В этом случаефункционал качества (2) принимает формуkF (T ) =k ZXi=1qi (ci , z)P (dz) → min .TkCi(3)и может быть переписан в видеZhl(C, z), q(C, z)iP (dz) → min,F (C) =CZ7(4)где l(C, z) и q(C, z) — вектора длины k такие, что первый состоит из значенийхарактеристической функции 1Ci (C) (C, z), а второй из qi (ci , z), i = 1, . . .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.