Диссертация (1148552), страница 19
Текст из файла (страница 19)
Атрибуция с помощью детерминированного алгоритмаДетерминированная атрибуция проводилась в четырёхмерном пространствеклассификации с применением уже использовавшегося ранее критерия t-критерияСтьюдента (формула 3.1.) в качестве решающего правила. Аналогично расчётам вразделе 3.4. будет использоваться критическое значение критерия, равное 1.96 исоответствующее уровню значимости α = 0,05.Для обеспечения большей точности классификации используется алгоритмклассификации в одномерном пространстве с помощью t-критерия, а решение опринадлежности объекта к классу принимается только в том случае, когда во всехизмерениях существуют плоскости, разделяющие исследуемые объекты.В соответствии с [173, с.135] применение такой методики позволяет обеспечитьразбиение объектов на непересекающиеся классы. Можно говорить, что если значениекритерия для пары объектов не превышает данную величину по какому-либо изпараметров, то по этому параметру отсутствует статистически существенная разницамежду этими двумя объектами.Атрибутируемый объект относится к эталонному классу в том случае, когдазначение критерия меньше критического по всему параметрическому пространству.Для отнесения объекта к классу необходимо выполнение условия [там же, с.135]:А, ∈ Ω , набл.≤ = ̅̅̅̅̅̅1.
. n{, ∈ Ω , набл.≤ = ̅̅̅̅̅̅1. . n(3.13.)Классификационная процедура является итеративной, на каждом шагепроисходит попытка классификации объектов, а после каждого шага – уточнениесостава и мощности классов. Значения координат эталонов классов на каждом шагеопределяются в соответствии с физическим смыслом по формулам [174, с. 60] (3.14),(3.15):110̅ = (̅̅̅1 + ̅̅̅2 + ⋯ + ̅̅̅)/(3.14.)2̅̅̅2̅ = ∑ (3.15.)∑Координаты эталонов классов на 0-ой итерации приведены в таблице 3.11.Таблица 3.11Координаты эталонов классов на 0-й итерацииКлассПараметрx̅SΩ1X181,0221,277X294,3043,355X350,1440,371X523,3674,337X181,2961,363X295,4293,744X350,1280,355X524,0614,987Ω2Координаты атрибутируемого класса определены аналогичным образом иприведены в таблице 3.12Таблица 3.12Координаты атрибутируемого класса Ω3КлассПараметрx̅SΩ3X181,2721,401X295,3844,160X350,1620,408X524,6135,563На 0-й итерации работа детерминированного алгоритма для класса «Роман оФиалке», Ω1 даёт следующие результаты, см.
таблица 3.13:111Таблица 3.13Работа детерминированного алгоритма на 0-й итерации для классов Ω1 и Ω2Класс Ω1Класс Ω3КритерийСтьюдента tПараметрx̅Sx̅SX181,0221,2781,2731,4021,322999X294,3043,3555,3844,1602,020773X350,1440,3710,1620,4080,337153X523,3674,3374,6135,5641,76691Класс Ω2Класс Ω3КритерийСтьюдента tПараметрx̅Sx̅SX181,2956411,3627199411,2726451,4016468950,117634X295,4289323,7438308825,3840584,1604111830,080177X350,1282380,3545283120,1621380,4082231680,626989X524,0606444,9866643484,6132255,5638460690,739585Поскольку не существует более двух параметров, по которым атрибутируемыйобъект принадлежал бы к разным классам, то можно утверждать, что автором«Четвёртого продолжения» является Манессье.
Остановка итерационного алгоритмапроизошла на 0-ой итерации.3.8. Атрибуция с помощью вероятностного алгоритмаНесмотрянато,чтосработалдетерминированныйалгоритм,длядополнительной проверки результатов, полученных в разделе 3.7, была проведена112атрибуция с использованием вероятностного алгоритма. Задача классификацииатрибутируемого объекта решается путём определения расстояния между егокоординатами и координатами эталонов априорных классов. Для определениярасстояния необходимо предварительно определить используемую меру сходства. Вкачестве меры сходства может использоваться расстояние между двумя объектами.Существует множество различных метрик расстояний, но большинство из нихявляются частным случаем специального класса метрических функций расстояний,известных как метрика Миньковского [175, с.
158], определяемых по формуле: =(∑=1| 1− | ) (3.15.)Одним из таких частных случаев является Евклидово расстояние, дляопределения которого r (константа Миньковского) равна 2:2 1 = (∑=1| − | )2 (3.16.)Евклидово расстояние представляет собой геометрическое расстояние вмногомерном пространстве и может рассчитываться как по исходным, так и постандартизированным данным.При p = 1 метрика Миньковского даёт так называемое «манхэттенскоерасстояние», которое является суммой разности по координатам: = ∑=1| − |) (3.17.)Преимуществом использования евклидова расстояния является независимостьрасстояния от направления осей, а недостатком – повышенное влияние отдельныхвыбросов, так как их вклад возводится в квадрат.Сходство двух объектов обратно пропорционально данной величине: чемменьше расстояние между объектами, тем ближе они друг к другу.
Таким образом,задача классификации сводится к задаче поиска минимального расстояния отатрибутируемого объекта до эталонных классов.113Для формирования исходной матрицы данных берутся средние значениякаждого параметра для каждого класса, а по ним, в свою очередь, строятся средниезначения и стандартные отклонения, см.
таблица 3.16.Таблица 3.16Исходная матрица данныхПараметрХ18Х29Х35Х52Х̅Х̅Х̅Х̅1,2735,3840,1624,6131,0224,3040,1443,3671,2965,4290,1284,061̅1,1975,0390,1454,014σi0,1240,5200,0140,510«Четвёртоепродолжение», Ω3«Роман о Фиалке»,Ω1«ПродолжениеМанессье», Ω2Для классификации с помощью вероятностного алгоритма необходимопредварительно построить матрицы расстояний между объектами.
В качествеисходных данных для построения матриц используются преобразованные кстандартному виду исходные матрицы данных. Элементами матрицы расстоянийявляются евклидовы расстояния между атрибутируемым объектом и эталонамиаприорных классов.Таблица приводится к стандартизированному виду, в соответствии с формулой(3.2.), при котором средние значения всех параметров равны нулю, а дисперсия равнаединице, с использованием среднего значения и выборочной дисперсии каждого114параметра, и вычислением на их основании элементов стандартизированной матрицыX, см.
таблица 3.17.Таблица 3.17Матрица данных, приведенная к стандартизированному видуПараметрХ18Х29Х35Х520,6120,6641,2621,176-1,410-1,413-0,079-1,2680,7980,750-1,1830,092̅0,000,000,000,00σi1111«Четвёртоепродолжение», Ω3«Роман о Фиалке», Ω1«ПродолжениеМанессье», Ω2Наконец, на основании таблицы 3.17 строится матрица евклидовых расстояниймежду априорными классами и атрибутируемым объектом:Таблица 3.18Матрица евклидовых расстояний между априорными классами и атрибутируемымобъектом«Четвёртое продолжение», Р1«Роман о Фиалке», Ω14,022«Продолжение Манессье», Ω22,682Помимо этого, для сравнения формируются матрицы «манхэттенскихрасстояний» – см. таблица 3.19.115Таблица 3.19Матрица «манхэттенских расстояний» между априорными классами иатрибутируемым объектом«Четвёртое продолжение», Р1«Роман о Фиалке», Ω17,884«Продолжение Манессье», Ω23,800Как видно из обеих таблиц, в данном случае два варианта определениярасстояний дают примерно одинаковую картину, и в дальнейших исследованиях дляудобства будет использоваться один из них – евклидово расстояние.Для завершения процесса классификации необходимо установить решающееправило, в соответствии с которым будет приниматься окончательное решение опринадлежности атрибутируемого объекта тому или иному классу.
Вероятностьпринадлежности j-ого объекта к k-ому классу определяется в соответствии сформулой 3.18. [176, с. 153] и рассчитывается на основании матрицы евклидовыхрасстояний−111 =(∑ ), (3.18)где dij – расстояние между j-ым объектом и i-ым классом, а djk – расстояние между jым объектом и остальными классами классификации.
Матрица вероятностейпредставлена в таблице 3.20:Таблица 3.20Матрица вероятностей принадлежности объектов априорным классам«Четвёртое продолжение», Р1«Роман о Фиалке», Ω10,400«Продолжение Манессье», Ω20,599116Так как в данном случае априорных классов всего два, то решающее правиломожет быть сформулировано как ∈ Ω , ( ∈ Ω ) > 0,5 . Соответственно, порезультатамработывероятностногоалгоритма«Четвёртоепродолжение»атрибутируется Манессье с вероятностью ~ 0.6.3.9.
Атрибуция при помощи критерия Сёренсена-ЧекановскогоПомимо уже использованных методов кластеризации, для сравнения такжеиспользуются различные меры близости, такие как, например, мера Сёренсена.Несмотря на то, что критерий Сёренсена использовался, как правило, в биологии иэкологии, существуют примеры его успешного использования для кластеризациисловарных определений. А. В. Синелёва [177] использует бинарный коэффициентсходства Сёренсена, так как имеет дело с несимметричными подмножествамисмысловых аспектов статей логического и философского словарей [там же, с.208].(3.18.)В этом случае А и В представляют собой множества аспектов, выделенных всловарных статьях по логике и философии, а n – количество элементов каждогомножества.В случае с атрибуцией текстов по набору информативных параметров,сравниваемые множества являются дескриптивными, поэтому вместо бинарногокоэффициента Сёренсена, используемого в случае, когда какой-либо признакналичествует или отсутствует, более уместно использование коэффициентаСёренсена-Чекановского, также называемого в англоязычной литературе индексомБрэя-Кёртиса, который имеет вид [178, p.