Диссертация (1148436), страница 6
Текст из файла (страница 6)
Кржановский [75, с. 261–264], А. Максвелл[83, с. 136–150], М. Ридли [100, с. 35–45]. Это метод направлен на выявление вданноммножествеобъектовподмножеств(кластеров),объединяющихобъекты, наиболее близкие между собой по каким-либо критериям. Отсюдаследует, что основными вопросами, стоящими перед данным методом,являютсяопределениеблизостииуказаниекритериев,покоторымопределяется принадлежность объектов к одному кластеру, см. А. Максвелл[83, с. 136–152].
В текстологии кластерный анализ применяли А. Хруби [74],Э. Пул [98], Дж. Гриффит [69], П. Гэлловей [63, 64], Дж. Брефельд [45], вотечественной текстологии – А. А. Алексеев [4, 5, 6, 7, 8] и его коллегиА. А. Пичхадзе [31, 32, 33], Е. В. Афанасьева [12], Н. Л. Горина [20, 21].Кластерным анализом на первом этапе своей программы пользуется Э. Ваттель[130, 132].341.2.1 АЛГОРИТМ КЛАСТЕРНОГО АНАЛИЗАИсходные данные для кластерного анализа принято представлять в видематрицы размером (m*n), где m равняется числу классифицируемых объектов,а n – количеству переменных, описывающих каждый объект.
Переменныемогут быть бинарными, номинальными, порядковыми, количественными.Бинарные переменные обозначают наличие / отсутствие того или иногопризнака, номинальные называют признак, порядковые подразумевают, чтоважен порядок, в котором они заданы, а количественные –значениепеременной, см. Б. Эверит [59, с. 9–23]. В текстологии классифицируемыеобъекты–рукописи,апеременныесоответсвуютвариантамузловразночтений. Это в основном номинальные переменные, так как важноразличить лишь варианты внутри узла, но количественное значение этимвариантам не приписывается. Часть переменных, которые обозначаютварианты узлов с омиссией / добаввлением, являются бинарными.
Вкластерном анализе нередко приходится иметь дело с разными типамипеременных одновременно. При работе с бинарными переменными (омиссии,вставки) и номинальными (все остальные типы узлов) можно представитьноминальные переменные в виде бинарных, см. А. Гордон [67, с. 19].Кластерный анализ состоит из трех этапов.На первом этапе исходная матрица перестраивается в матрицу (m*m),показывающую коэффициенты сходства (различия) объектов.Пусть у нас есть 2 рукописи i и j и 4 варианта текста (узла разночтений):a, b, c, d. Представим исходную матрицу, где строки – рукописи, столбцы –текстовые варианты, а знаки «+» и «–» обозначают наличие или отсутствиеварианта (Таблица 2, с. 35).35Таблица 2 – Исходная матрица для гипотетических рукописей i и j по четыремузлам разночтений a, b, c, dabcdРукопись i+–+–Рукопись j++––В в работах по кластерному анадизу М.
Андерберга [38], Р. Кормака [50],Э. Дидея [56], Б. Эверитта [59], П. Снита [115] описано большое количествокоэффициентов близости для бинарных данных. Б. Эверитт [59, с. 13–19]приводит в качестве самых распространенных следующие коэффициентысходства (где p – количество текстовых вариантов, а – число вариантов,имеющихся в обеих рукописях (положительные совпадения), d – числовариантов, отсутствующих в обеих рукописях (отрицательные совпадения),b+c – число вариантов, встречающихся только в одной рукописи):(i) (a+d) / p – отношение числа совпадений к числу вариантов текста;(ii) a / (a + b + c) – отрицательные совпадения не учитываются ни вчислителе, ни в знаменателе;(iii) 2a / (2a + b + c) – положительные совпадения удваиваются,отрицательные совпадения не учитываются ни в числителе, ни в знаменателе;(iv) 2(a + d) / (2(a + d) + b + c) – совпадения удваиваются как в числителе,так и в знаменателе;(v) a / (a + 2(b + c)) – отрицательные совпадения не учитываются ни вчислителе, ни в знаменателе; число вариантов, встречающихся только в однойрукописи, удваивается;(vi) a / p – отношение числа положительных совпадений к числу вариантовтекстаВыбор коэффициента зависит в основном от того, как рассматриватьтакие совпадения между объектами как отсутствие какого-либо признака36(омиссии), а также от того, как оцениваются совпадения и несовпадения междуобъектами.Второй этап – объединение объектов в кластеры.
Пережде чемприступить непосредственно к процедуре кластеризации, нужно выбратькритерий присоединения объектов к кластерам. П. Гэлловей приводит вкачестве возможных три следующих критерия [64, с. 3–4]:а) очередной объект имеет наибольшую близость к (наименьшеерасстояние от) одной из рукописей данного кластера;б) среднее сходство очередного объекта со всеми объектами данногокластера выше, чем с объектами всех остальных кластеров;в) сходство очередного объекта с каждым из объектов данного кластераявляется максимальным по сравнению со сходством с объектами другихкластеров.Третийинтерпретацияэтап–выявлениерезультатов.Послеокончательныхзавершенияграницкластеровкластеризациииследуетопределение границ между кластерами, что является достаточно субъективнойоценкой, (см., напр., работу Б.
Эверита [59, с. 59–60]). Кластеры формальноможно выявить путем задания некоего коэффициента, который будетсоответствовать минимально допустимому сходству объектов в пределаходного кластера. В тех случаях, когда сходство очередного объекта с другимиобъектами кластера меньше заданного коэффициента, объект помещается вдругой кластер. Объективных правил задания такого коэффициента несуществует. Таким образом, при разбиении на кластеры, также как и призадании любого коэффициента сходства, определяющую роль играет оценка иинтуиция ученого.371.2.2. МЕТОД АЛЕКСЕЕВАЭ.
Колвелл при работе с греческим Новым Заветом отказался отопределения отношений между источниками. Вместо этого он предложилразбить источники на группы с близким текстом, и определять отношениямежду группами [49]. Это произошло в 70–е гг. XX в. и определилосовершенно новый взгляд на отношения внутри рукописной традиции.При сравнении рукописей, а не редакций, каждую новую рукописьприходилось снова сравнивать со всеми имеющимися рукописями, поскольку вслучае сравнения ее лишь с частью рукописей или с одним авторитетнымтекстом информацию о ее положении в стемме и месте в традиции нельзясчитать исчерпывающей. Э.
Колвелл первым сформулировал принцип выборачтений для каждого из типов текста греческого Нового Завета и составилтаблицу из 22-х чтений по отрывку Евангелия от Иоанна.В 1995 году в рамках проекта исследования церковнославянскогоЕвангелия от Иоанна научным сотрудником кафедры математическойлингвистики Е.
Л. Алексеевой (Кузнецовой) была разработана программакластерного анализа для церковнославянской евангельской традиции [7].Метод был предложен А. А. Алексеевым, который опирался на идеи,высказанные ранее Э. Колвеллом [49, с. 56–62]. Основными требованиями,предъявляемыми А. А. Алексеевым к методу, стали экономичность алгоритмаи минимальный субъективизм. Кластерный анализ решено было проводить постепени близости между рукописями, в связи с тем, что степень близостиподразумевает более естественные группы.Критерий близости был выбран самый простой – отношение количестваобщих чтений к общему числу узлов разночтений для данной пары (из общегочисла узлов исключаются те узлы, в которых хотя бы одна из рукописей имеет38лакуну или индивидуальное чтение).
После ряда экспериментов с критериемобъединения рукописей в кластеры остановились на том, что очередной объектдолжен иметь наиболее высокий процент сходства с одной из рукописей ужеобразовавшегося кластера. От подбора коэффициента или пороговогозначения, определяющего окончательные границы кластеров, отказались сразуже. Вместо этого полученные данные представляли в виде квадратной матрицырукописей, упорядоченной по убыванию процента сходства (процентноевыражение коэффициента близости). Ниже приводится подробное описаниеалгоритма, приведенного в работе А.
А. Алексеева и Е. Л. Кузнецовой [7].Для разбиения объектов на кластеры вычисляется коэффициент близостиили расстояния. Колвелл использовал самый простой коэффициент:K=F / V *100%,(1.4)где K – коэффициент близости, F – количество общих чтений для данной пары,V – количество узлов, по которым сравнивается эта пара. То есть если 100узлов и 100 общих чтений – это 100% сходства, 100 узлов и 70 общих чтений –70% сходства.Важно заметить, что простота метода также крайне важна, так как всегдапозволяет проверить результат, что повышает объективность результатов.Рассмотрим пример для семи рукописей A, B, C, D, E, F, G на ста узлахразночтений (Таблица 3, с. 40–42). Программа просматривает пары рукописейв порядке убывания процента сходства – от самого высокого к самомунизкому.
Если в рассматриваемой паре ни одна из рукописей еще не входит нив один кластер, они образуют новый кластер. Если одна из рукописейпринадлежит какому–либо кластеру, а вторая свободна, вторая присоединяетсяк этому кластеру. Если рукописи уже входят в разные кластеры, эти кластерыобъединяются. Если они принадлажат уже одному кластеру, ничего неменяется.В нашем примере в Таблице 3 на с.
40–42 на первом шаге программавыбирает пару рукописей EF, которая имеет максимальное количество общих39чтений. Получаем первый кластер EF. На втором шаге к этому кластеруприсоединяется рукопись B: получаем EFB.На третьем и четвертом шаге образуются два новых кластера: AD и CG.На пятом шаге близость рукописей C и F приводит к объединениюкластеров EFB и CG, получаем кластер EFBCG.На шестом, седьмом, восьмом и девятом шагах ничего не происходит,так как все рукописи в рассматриваемых парах принадлежат одному кластеру.На десятом шаге рукописи AC объединяются в пару, и так как они ужепринадлежат к разным кластерам, оба кластера объединяются в один,включающий в себя уже все семь рукописей.
Хотя семь рукописей образуют 21пару, для завершения работы программы оказалось достаточно десяти шагов.40Таблица 3 – Процесс объединения рукописей в кластерыABCDEFGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 1Кластер EF.A0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 2Пара BE;B присоединяется к EF.A0B380C45720D8040470E388560420F40837535900G455779435860Итоговый кластер EFB.Шаг 3Пара AD;образуется новый кластер AD.Итоговые кластеры: EFB, AD.041Продолжение таблицы 3ABCDEFGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 4Пара CG;образуется новый кластер CG.Итоговые кластеры: EFB, AD, CGA0B380C45720D8040470E388560420F40837535900G4557794358600ABCDEFGШаг 5Пара CF;объединяются кластеры EFF+CG.A0B380C45720D8040470E388560420F40837535900G455779435860Итоговые кластеры: EFBCG, AD.Шаги 6-9Пары EC, FG, EG, BG;Изменений нет.042Продолжение таблицы 3ABCDEFGШаг 10A0B380C45720D8040470E388560420F40837535900G455779435860Пара AC;Кластеры EFBCG и ADобъединяются.Итоговый кластер EFBCGAD0Для наглядности результат можно представить в виде таблицы (см.Таблицу 4), где строки и столбцы соответствуют сиглам рукописей, а на ихпересечениях указан процент сходства рукописей.Таблица 4 – Результат кластерного анализа для 7 рукописей A, B, C, D, E, F, GEFBCGADE0908560583842F9008375604035B8583072573840C6075720794547G5860577904543A3840384545080D4235404735800Недостатком метода является то, что иногда кластеры объединяютсямежду собою раньше, чем отдельные рукописи, которые имеют не оченьвысокий процент сходства со своей группой и не успевают к ней43присоединиться.