Главная » Просмотр файлов » Диссертация

Диссертация (1148436), страница 6

Файл №1148436 Диссертация (Автоматизированная классификация древних рукописей (на материале 525 списков славянского Евангелия от Матфея XI-XVI вв.)) 6 страницаДиссертация (1148436) страница 62019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 6)

Кржановский [75, с. 261–264], А. Максвелл[83, с. 136–150], М. Ридли [100, с. 35–45]. Это метод направлен на выявление вданноммножествеобъектовподмножеств(кластеров),объединяющихобъекты, наиболее близкие между собой по каким-либо критериям. Отсюдаследует, что основными вопросами, стоящими перед данным методом,являютсяопределениеблизостииуказаниекритериев,покоторымопределяется принадлежность объектов к одному кластеру, см. А. Максвелл[83, с. 136–152].

В текстологии кластерный анализ применяли А. Хруби [74],Э. Пул [98], Дж. Гриффит [69], П. Гэлловей [63, 64], Дж. Брефельд [45], вотечественной текстологии – А. А. Алексеев [4, 5, 6, 7, 8] и его коллегиА. А. Пичхадзе [31, 32, 33], Е. В. Афанасьева [12], Н. Л. Горина [20, 21].Кластерным анализом на первом этапе своей программы пользуется Э. Ваттель[130, 132].341.2.1 АЛГОРИТМ КЛАСТЕРНОГО АНАЛИЗАИсходные данные для кластерного анализа принято представлять в видематрицы размером (m*n), где m равняется числу классифицируемых объектов,а n – количеству переменных, описывающих каждый объект.

Переменныемогут быть бинарными, номинальными, порядковыми, количественными.Бинарные переменные обозначают наличие / отсутствие того или иногопризнака, номинальные называют признак, порядковые подразумевают, чтоважен порядок, в котором они заданы, а количественные –значениепеременной, см. Б. Эверит [59, с. 9–23]. В текстологии классифицируемыеобъекты–рукописи,апеременныесоответсвуютвариантамузловразночтений. Это в основном номинальные переменные, так как важноразличить лишь варианты внутри узла, но количественное значение этимвариантам не приписывается. Часть переменных, которые обозначаютварианты узлов с омиссией / добаввлением, являются бинарными.

Вкластерном анализе нередко приходится иметь дело с разными типамипеременных одновременно. При работе с бинарными переменными (омиссии,вставки) и номинальными (все остальные типы узлов) можно представитьноминальные переменные в виде бинарных, см. А. Гордон [67, с. 19].Кластерный анализ состоит из трех этапов.На первом этапе исходная матрица перестраивается в матрицу (m*m),показывающую коэффициенты сходства (различия) объектов.Пусть у нас есть 2 рукописи i и j и 4 варианта текста (узла разночтений):a, b, c, d. Представим исходную матрицу, где строки – рукописи, столбцы –текстовые варианты, а знаки «+» и «–» обозначают наличие или отсутствиеварианта (Таблица 2, с. 35).35Таблица 2 – Исходная матрица для гипотетических рукописей i и j по четыремузлам разночтений a, b, c, dabcdРукопись i+–+–Рукопись j++––В в работах по кластерному анадизу М.

Андерберга [38], Р. Кормака [50],Э. Дидея [56], Б. Эверитта [59], П. Снита [115] описано большое количествокоэффициентов близости для бинарных данных. Б. Эверитт [59, с. 13–19]приводит в качестве самых распространенных следующие коэффициентысходства (где p – количество текстовых вариантов, а – число вариантов,имеющихся в обеих рукописях (положительные совпадения), d – числовариантов, отсутствующих в обеих рукописях (отрицательные совпадения),b+c – число вариантов, встречающихся только в одной рукописи):(i) (a+d) / p – отношение числа совпадений к числу вариантов текста;(ii) a / (a + b + c) – отрицательные совпадения не учитываются ни вчислителе, ни в знаменателе;(iii) 2a / (2a + b + c) – положительные совпадения удваиваются,отрицательные совпадения не учитываются ни в числителе, ни в знаменателе;(iv) 2(a + d) / (2(a + d) + b + c) – совпадения удваиваются как в числителе,так и в знаменателе;(v) a / (a + 2(b + c)) – отрицательные совпадения не учитываются ни вчислителе, ни в знаменателе; число вариантов, встречающихся только в однойрукописи, удваивается;(vi) a / p – отношение числа положительных совпадений к числу вариантовтекстаВыбор коэффициента зависит в основном от того, как рассматриватьтакие совпадения между объектами как отсутствие какого-либо признака36(омиссии), а также от того, как оцениваются совпадения и несовпадения междуобъектами.Второй этап – объединение объектов в кластеры.

Пережде чемприступить непосредственно к процедуре кластеризации, нужно выбратькритерий присоединения объектов к кластерам. П. Гэлловей приводит вкачестве возможных три следующих критерия [64, с. 3–4]:а) очередной объект имеет наибольшую близость к (наименьшеерасстояние от) одной из рукописей данного кластера;б) среднее сходство очередного объекта со всеми объектами данногокластера выше, чем с объектами всех остальных кластеров;в) сходство очередного объекта с каждым из объектов данного кластераявляется максимальным по сравнению со сходством с объектами другихкластеров.Третийинтерпретацияэтап–выявлениерезультатов.Послеокончательныхзавершенияграницкластеровкластеризациииследуетопределение границ между кластерами, что является достаточно субъективнойоценкой, (см., напр., работу Б.

Эверита [59, с. 59–60]). Кластеры формальноможно выявить путем задания некоего коэффициента, который будетсоответствовать минимально допустимому сходству объектов в пределаходного кластера. В тех случаях, когда сходство очередного объекта с другимиобъектами кластера меньше заданного коэффициента, объект помещается вдругой кластер. Объективных правил задания такого коэффициента несуществует. Таким образом, при разбиении на кластеры, также как и призадании любого коэффициента сходства, определяющую роль играет оценка иинтуиция ученого.371.2.2. МЕТОД АЛЕКСЕЕВАЭ.

Колвелл при работе с греческим Новым Заветом отказался отопределения отношений между источниками. Вместо этого он предложилразбить источники на группы с близким текстом, и определять отношениямежду группами [49]. Это произошло в 70–е гг. XX в. и определилосовершенно новый взгляд на отношения внутри рукописной традиции.При сравнении рукописей, а не редакций, каждую новую рукописьприходилось снова сравнивать со всеми имеющимися рукописями, поскольку вслучае сравнения ее лишь с частью рукописей или с одним авторитетнымтекстом информацию о ее положении в стемме и месте в традиции нельзясчитать исчерпывающей. Э.

Колвелл первым сформулировал принцип выборачтений для каждого из типов текста греческого Нового Завета и составилтаблицу из 22-х чтений по отрывку Евангелия от Иоанна.В 1995 году в рамках проекта исследования церковнославянскогоЕвангелия от Иоанна научным сотрудником кафедры математическойлингвистики Е.

Л. Алексеевой (Кузнецовой) была разработана программакластерного анализа для церковнославянской евангельской традиции [7].Метод был предложен А. А. Алексеевым, который опирался на идеи,высказанные ранее Э. Колвеллом [49, с. 56–62]. Основными требованиями,предъявляемыми А. А. Алексеевым к методу, стали экономичность алгоритмаи минимальный субъективизм. Кластерный анализ решено было проводить постепени близости между рукописями, в связи с тем, что степень близостиподразумевает более естественные группы.Критерий близости был выбран самый простой – отношение количестваобщих чтений к общему числу узлов разночтений для данной пары (из общегочисла узлов исключаются те узлы, в которых хотя бы одна из рукописей имеет38лакуну или индивидуальное чтение).

После ряда экспериментов с критериемобъединения рукописей в кластеры остановились на том, что очередной объектдолжен иметь наиболее высокий процент сходства с одной из рукописей ужеобразовавшегося кластера. От подбора коэффициента или пороговогозначения, определяющего окончательные границы кластеров, отказались сразуже. Вместо этого полученные данные представляли в виде квадратной матрицырукописей, упорядоченной по убыванию процента сходства (процентноевыражение коэффициента близости). Ниже приводится подробное описаниеалгоритма, приведенного в работе А.

А. Алексеева и Е. Л. Кузнецовой [7].Для разбиения объектов на кластеры вычисляется коэффициент близостиили расстояния. Колвелл использовал самый простой коэффициент:K=F / V *100%,(1.4)где K – коэффициент близости, F – количество общих чтений для данной пары,V – количество узлов, по которым сравнивается эта пара. То есть если 100узлов и 100 общих чтений – это 100% сходства, 100 узлов и 70 общих чтений –70% сходства.Важно заметить, что простота метода также крайне важна, так как всегдапозволяет проверить результат, что повышает объективность результатов.Рассмотрим пример для семи рукописей A, B, C, D, E, F, G на ста узлахразночтений (Таблица 3, с. 40–42). Программа просматривает пары рукописейв порядке убывания процента сходства – от самого высокого к самомунизкому.

Если в рассматриваемой паре ни одна из рукописей еще не входит нив один кластер, они образуют новый кластер. Если одна из рукописейпринадлежит какому–либо кластеру, а вторая свободна, вторая присоединяетсяк этому кластеру. Если рукописи уже входят в разные кластеры, эти кластерыобъединяются. Если они принадлажат уже одному кластеру, ничего неменяется.В нашем примере в Таблице 3 на с.

40–42 на первом шаге программавыбирает пару рукописей EF, которая имеет максимальное количество общих39чтений. Получаем первый кластер EF. На втором шаге к этому кластеруприсоединяется рукопись B: получаем EFB.На третьем и четвертом шаге образуются два новых кластера: AD и CG.На пятом шаге близость рукописей C и F приводит к объединениюкластеров EFB и CG, получаем кластер EFBCG.На шестом, седьмом, восьмом и девятом шагах ничего не происходит,так как все рукописи в рассматриваемых парах принадлежат одному кластеру.На десятом шаге рукописи AC объединяются в пару, и так как они ужепринадлежат к разным кластерам, оба кластера объединяются в один,включающий в себя уже все семь рукописей.

Хотя семь рукописей образуют 21пару, для завершения работы программы оказалось достаточно десяти шагов.40Таблица 3 – Процесс объединения рукописей в кластерыABCDEFGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 1Кластер EF.A0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 2Пара BE;B присоединяется к EF.A0B380C45720D8040470E388560420F40837535900G455779435860Итоговый кластер EFB.Шаг 3Пара AD;образуется новый кластер AD.Итоговые кластеры: EFB, AD.041Продолжение таблицы 3ABCDEFGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 4Пара CG;образуется новый кластер CG.Итоговые кластеры: EFB, AD, CGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 5Пара CF;объединяются кластеры EFF+CG.A0B380C45720D8040470E388560420F40837535900G455779435860Итоговые кластеры: EFBCG, AD.Шаги 6-9Пары EC, FG, EG, BG;Изменений нет.042Продолжение таблицы 3ABCDEFGШаг 10A0B380C45720D8040470E388560420F40837535900G455779435860Пара AC;Кластеры EFBCG и ADобъединяются.Итоговый кластер EFBCGAD0Для наглядности результат можно представить в виде таблицы (см.Таблицу 4), где строки и столбцы соответствуют сиглам рукописей, а на ихпересечениях указан процент сходства рукописей.Таблица 4 – Результат кластерного анализа для 7 рукописей A, B, C, D, E, F, GEFBCGADE0908560583842F9008375604035B8583072573840C6075720794547G5860577904543A3840384545080D4235404735800Недостатком метода является то, что иногда кластеры объединяютсямежду собою раньше, чем отдельные рукописи, которые имеют не оченьвысокий процент сходства со своей группой и не успевают к ней43присоединиться.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6382
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее