Диссертация (1149537), страница 10
Текст из файла (страница 10)
Азимов собирался завершить цикл на книге “Второе Основание”, однако поклонники убедили егонаписать продолжение.67Цикл “Основание” изначально состоял из восьми небольших глав, которые были опубликованы между маем 1942 г. и январем 1950 г. Первыйтом серии, названный “Основание”, был выпущен в 1951 г. и состоял изчетырех основных и одного побочного сюжета, который был выпущенпозже. Остальные сюжеты были изданы в “Основание и Империя” (1952)и “Второе Основание” (1953), по два сюжета в каждом. Эта серия из трехтомов известна как “Трилогия Основание” и она в точности совпадает совторым кластером в полученном разделении. Перечисленные три книгиобразуют один и тот же кластер в обоих разделениях.Четвёртый том под названием “Кризис Основания”, был написан в1982 г., почти через 30 лет.
Позже, в 1986 г., за ним последовал “Основание и Земля”. В них, Азимов пытается свести вместе три романа“Робот”, “Империя” и “Основание” в общей “Вселенной” и ввести понятие“Галаксия” для интегрированного коллективного разума. Эта пара книгсоставляет третий кластер во втором разделении и две разные группы впервом. Это может быть связано с различием в посыле этих книг.
ПослеА.Азимов написал предысторию, которая и составляет первый кластер.Таким образом, оба разделения полученных обсуждаемым методом хорошо описывают эволюцию авторского стиля.Цикл “Рама” А.КларкаТаблицы 3.4 и 3.5 содержат результаты сравнения стилей, полученных с помощью расстояний dSpearman и dCanberra соответственно.R1R2R3R4R5R6R1 R2 R3 R4 R5 R6011111100000100001100001100001101110Таблица 3.4: Сравнение книг из цикла “Рама” с помощью расстоянияdSpearman .68R1R2R3R4R5R6R1 R2 R3 R4 R5 R6011111100000100101101000100000101000Таблица 3.5: Сравнение книг из цикла “Рама” с помощью расстоянияdCanberra .На Рис. 3.8 изображены дендрограммы иерархии циклов.distance1.510.5045326131book numberdistance2104625book numberРис.
3.8: Дендрограммы иерархии книг в цикле “Рама”.Как и в результате эксперимента, описанного в п. 3.2, первое произведение, написанное только А.Кларком, выделяется в отдельный кластер.Цикл “Властелин колец” Дж. Р. Р. Толкина“Властелин колец” — роман-эпопея английского писателя Джона Рональда Руэла Толкина, одно из самых известных произведений жанрафэнтези. Роман был написан как единая книга, но при первом издании69его разделили на 3 части из-за объема. “Властелин колец” является продолжением повести “Хоббит”, опубликованной в 1937 году.Были проанализированы следующие прозведения:• “Хоббит” (1937) (T 1),• “Братство кольца” (1954) (T 2),• “Две башни” (1954) (T 3),• “Возвращение короля” (1955) (T 4),• “Сильмариллион” (1977) (T 5).На Таблицах 3.6, 3.7 и Рис.
3.9 отображены полученные результаты.T1T2T3T4T5T1 T2 T3 T4 T50001100001000011000111110Таблица 3.6: Сравнение цикла “Властелин колец” с помощью расстоянияdSpearman .T1T2T3T4T5T1 T2 T3 T4 T50001100001000011000011100Таблица 3.7: Сравнение книг из цикла “Властелин колец” с помощьюрасстояния dCanberra .70distance2102341545distancebook number10.50231book numberРис. 3.9: Дендрограммы иерархии книг в цикле “Властелин колец”.Из Таблицы 3.6 видно, что книги T 2, T 3 и T 4 (основная часть трилогии) составляют полностью однородный кластер (только ’0’ в соответствующих блоках матрицы).Такой результат предсказуем, так как книги были написаны в видеодного романа, который издателями в виду большого объема было решено разделить на три части.Как и следовало ожидать, произведение T 1 (“Хоббит”) тесно связанс этим кластером.
Однако, стиль книги отличается от стиля T 4.Наконец, последнее произведение T 5 расположено дальше от всехостальных. Это может объясняться тем, что “Сильмариллион” был составлен и издан сыном Дж. Толкина, Кристофером, в 1977. Ему пришлось добавлять новые тексты, чтобы исправить несоответствия в сюжете.
Основное отличие в классификации, полученной с помощью расстояния dCanberra в расстоянии между произведениями T 4 и T 5. Тем неменее, общая структура книжной серии сохранена.Результаты применения предложенных алгоритмов к анализу серийных последовательностей книг показывают, что рассмотренная в диссертации новая динамическая модель фрагментов текстов дает для каждогоавтора некоторые новые уникальные характеристики его стиля.71ЗаключениеПеречислим основные результаты диссертационной работы:1.
Предложен метод построения динамических моделей текстовых документов.2. Разработан и теоретически обоснован алгоритм классификации текстовых документов, основанный на кластеризации спектральногопредставления динамических моделей текстовых документов.3. Разработан и теоретически обоснован алгоритм классификации фрагментов текстовых документов, основанный на кластеризации динамических моделей текстовых документов с помощью расстояний наядрах.72Литература[1] Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.Прикладная статистика: Классификация и снижение размерности — М.: Финансы и статистика, 1989, 607 с.[2] Айзерман М.
А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. — 1970.[3] Вапник В.Н., Червоненкис А.Я. Теория распознавания образов:статистические проблемы обучения — М.: Наука, 1974, 416 с.[4] Граничин О. Н., Измакова О. А. Рандомизированный алгоритмстохастической аппроксимации в задаче самообучения // Автоматика и телемеханика — 2005 — No. 8 — P. 52–63.[5] Кижаева Н.А. Тематическое моделирование и кластеризация текстов на арабском языке // Стохастическая оптимизация в информатике, 2013. — T. 9, — №2. — С. 33–40.[6] Кижаева Н.А.
Динамическая модель процесса эволюции текстовых документов // Стохастическая оптимизация в информатике,2018. — T. 14. — №1. — С. 31–46.[7] Кижаева Н.А., Шалымов Д.С. Определение авторского стиля текстов на основе статистического подхода двухвыборочного тестирования и метода K-ближайших соседей // Компьютерные инструменты в образовании, 2015. — №5. — C.14–23.[8] Поляк Б. Т., Хлебников М. В. Метод главных компонент: робастные версии // Автоматика и телемеханика. — 2017. — №3.
— С. —130–148.[9] Садовничий В. А. Теория операторов. — 1986.[10] Фишер Р.А. Статистические методы для исследователей. М.: Госстатиздат, 1954, 267 с.73[11] Фомин В.Н. Математическая теория обучаемых опознающих систем — Л.: ЛГУ, 1976, 236 c.[12] Цыпкин Я.З. Адаптация и обучение в автоматических системах. —М.: Hаука.
— 1968. — 400 с.[13] Цыпкин Я.З. Основы теории обучающихся систем. — М.: Наука. —1970. — 252 с.[14] Шахтарин Б., Ковригин В.А. Методы спектрального оцениванияслучайных процессов. — Гелиос АРВ, 2005.[15] Alred J., Brusaw Ch.T., Oliu W.E. Handbook of Technical Writing,Ninth Edition. — St. Martin’s Press. — 2008.[16] Amelin K., Granichin O., Kizhaeva N., Volkovich Z. Patterning ofwriting style evolution by means of dynamic similarity // PatternRecognition, 2017,https://doi.org/10.1016/j.patcog.2017.12.011[17] Anick P. G., Vaithyanathan S.
Exploiting clustering and phrases forcontext-based information retrieval // ACM SIGIR Forum. — ACM,1997. — Т. 31. — №. SI. — P. 314-323.[18] Argamon S. Interpreting Burrows’s Delta: Geometric and probabilisticfoundations // Literary and Linguistic Computing. — 2008. — Vol. 23,No. 2. — P. 131–147.[19] Aronszajn N. Theory of reproducing kernels // Transactions of theAmerican mathematical society — 1950. — Vol. 68 — No.
3 — P. 337–404.[20] Belanche L., Vázquez J. L., Vázquez M. Distance-based kernelsfor real-valued data // Data Analysis, Machine Learning andApplications. — Springer, Berlin, Heidelberg, 2008. — P. 3-10.[21] Berg C., Christensen J. P. R., Ressel P. Harmonic Analysis onSemigroups. — 1984.[22] Berkhin P.A Survey of Clustering Data Mining Techniques // In:Proc. of the Grouping Multidimensional Data - Recent Advances inClustering.
— 2006. — P. 25–71.[23] Bibby J. M., Kent J. T., Mardia K. V. Multivariate Analysis. — 1979.74[24] Bishop C. M. Pattern Recognition and Machine Learning //Springer. — 2006.[25] Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of Machine Learning research. — 2003. — Т.
3. — No. Jan. —P. 993–1022.[26] Bolshoy A., Volkovich Z., Kirzhner V., Barzily Z. Genome Clustering:From Linguistic Models to Classification of Genetic Texts // SpringerScience & Business Media. — 2010.[27] Burges C. J. C. A tutorial on support vector machines for patternrecognition // Data Mining and Knowledge Discovery. — 1998. — Т.2. — №. 2. — P. 121-167.[28] Burrows J. F. Delta: A measure of stylistic difference and a guide tolikely authorship // Literary and Linguistic Computing. — 2002.
—Vol. 17. — P. 267–287.[29] Cai C. S., Yang J., Shulin S. W. A clustering based feature selectionmethod using feature information distance for text data // In: Proc. ofthe Intelligent Computing Theories and Application: 12th InternationalConference. — 2016. — P. 122–132.[30] Calinski T., Harabasz J. A dendrite method for cluster analysis //Communications in Statistics-theory and Methods. — 1974. — Vol.
3. —No. 1. — P. 1–27.[31] Calvo-Zaragoza J., On J. An efficient approach for interactivesequential pattern recognition // Pattern Recognition. — 2017. —Vol. 64, No. Supplement C. — P. 295–304.[32] M. Campi Classification with guaranteed probability of error //Machine learning. — 2010. — Vol. 80.
— No. 1. — P. 63–84.[33] Cao F., Liang J., Jiang G. An initialization method for the k-meansalgorithm using neighborhood model // Computers & Mathematicswith Applications. — 2009. — Vol. 58, No. 3. — P. 474–483.[34] Carpenter B. Integrating out multinomial parameters in latentDirichlet allocation and naive Bayes for collapsed Gibbs sampling //Rapport Technique. — 2010. — Т. 4. — P. 464.75[35] Cerra D., Datcu M., Reinartz P. Authorship analysis based on datacompression // Pattern Recognition Letters. — 2014. — Vol. 42,No. Supplement C. — P. 79–84.[36] Cha S. H.
Comprehensive survey on distance/similarity measuresbetween probability density functions // International Journal ofMathematical Models and Methods in Applied Sciences. — 2007. —Vol. 1, No. 4. — P. 300–307.[37] Chemudugunta C. et al. Modeling documents by combining semanticconcepts with unsupervised statistical learning // InternationalSemantic Web Conference. — Springer, Berlin, Heidelberg, 2008. —P.
229-244.[38] Chiu T., Fang D., Chen J., Wang Y., Jeris C. A robust and scalableclustering algorithm for mixed type attributes in large databaseenvironment // In: Proc. of the Seventh ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. — 2001. —P. 263–268.[39] Cilibrasi R., Vitanyi P. M. Clustering by compression // IEEETransactions on Information Theory. — 2005. — Vol. 51. — P. 1523–1545.[40] Cohen K. B., Hunter L. Getting started in text mining // PLoScomputational biology. — 2008. — Т. 4. — №. 1. — P. e20.[41] Cohen W. W., Hirsh H. Joins that generalize: text classification usingWHIRL // In.: Proc. of ACM KDD Conference.