Лекция 12. Кластерный анализ (1185315)
Текст из файла
2Кластерный анализЦелью методов кластерного анализа является разбиение выборок многомерных данных нагруппы объектов близких в смысле некоторой заданной меры сходства. Такие компактныегруппы называются кластерами, классами или таксонами.Методыкластерногоанализаназываюттакжеметодамиобучениябезучителя,автоматической группировки или таксономии.Методыкластерногоанализамогутиспользоватьсявкачествавспомогательныхинструментов при решении задач прогнозирования или распознавания. Однако нередкокластеризация может иметь самостоятельное значение.2Кластерный анализБольшинство известных алгоритмов кластеризации предполагает задание расстояния (x, y) между произвольными векторами-описаниямиобъектов.
В качестве расстояния могут выступать, например, евклидова метрика: (x, y ) n2(xy) i ii 1Используются и другие функции расстояния.2Кластерный анализОдним из наиболее известных методов кластеризации является алгоритмk внутригрупповыхсредних. Предположим, что у нас задана выборка векторов- описаний S {x1 ,, xm}. Алгоритмнаходит такие кластеры, для объектов которых центр «своего кластера» будет ближе центра любого«чужого кластера».Метод предполагает, что число кластеров изначально задано.2Кластерный анализПоиск оптимальной кластеризации методом квнутригрупповых среднихПредположим, что предполагаемое число кластеров равно r.Зададим произвольным образом исходное разбиение выборкиS {x1, , xm}на группыG10 , , Gr0Вычисляем геометрические центры исходных группПусть группаGi0состоит из объектовm(i )01{x , , x0m(i )}.Тогда центр0iGxi0 m1(i ) x0jвычисляется по формулеВычисляются расстояния между объектами изSи центрамиj 1x10 , , xr02Кластерный анализПоиск оптимальной кластеризации методом kвнутригрупповых среднихОбъекты изS затем переносятсяполучаем новый набор группв группу с наименее удалённым центром.
В результате мыG11 , , Gr1 .Повторяем для набора группG11 , , Gr1 те же00G,,Gсамые операции, которые ранее выполнялись для групп 1r………………………………………………………………………………………………………………………………………………………………Процесс завершается на некотором шаге k+1, когда переносы объектов изSв другиегруппы не требуются.То есть каждый объект наименее удалён от центра той же самой группы, которой он ипринадлежит.
В результате мы получаем набор компактных групп - кластеровИерархическая кластеризацияДля того, чтобы осуществить иерархическую кластеризацию необходимо сначала задатьрасстояние(G, G)между произвольными кластерамиG, G .Возможные способы задания расстояния:1)(G, G) min (x, x)xG, xG-то есть расстоянием между двумя кластерамиявляется минимальное расстояние между двумя объектами, один из которыхпринадлежит2)G , а второй G .(G, G) max (x, x)xG, xG-то есть расстоянием между двумя кластерамиявляется максимальное расстояние между двумя объектами, один из которыхпринадлежитG , а второй G .Иерархическая кластеризация3)(G, G) ( x, x) - расстояние междуцентрами кластеровG, Gm m4)(G, G) m1m (xi , xj )i 1 j 1- среднее расстояние между объектами из двухкластеровОтметим, что в случае, когда все кластеры состоят только из одного объекта, расстояниямежду ними всегда равны расстояниям между этими единственными объектами.Иерархическая кластеризацияНа начальном этапе кластерами являются объектыSНа каждом последующем шаге происходит объединение двух ближайших кластеров изнабора, образованного на предыдущем шаге.Процесс завершается при достижении одного из следующих условий.1) Кластеры, образованные на новом шаге теряют компактность.
Тогда мы оставляем всиле кластеризацию, полученную на предыдущем шаге.2) Образуется требуемое число кластеров3) Процесс завершается, если достигнутая кластеризация удовлетворяет требованиямэксперта исследователя.ИССЛЕДОВАНИЯ ФОЛЬКЛОРНО-МИФОЛОГИЧЕСКИХ ТРАДИЦИЙ С ИСПОЛЬЗОВАНИЕММЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХЦелью настоящей работы является разработка и обоснование методов интеллектуальногоанализа данных, эффективных при исследовании фольклорно-мифологических традиций понаборам представленных в них мотивов. База данных, содержащая информацию овстречаемости мотивов, создана и Ю.Е.
Березкиным [Березкин 2007; 2009] и размещена насайте http://starling.rinet.ru/kozmin/tales/index.php?index=berezkinВ 2007 г. база включала сведения о встречаемости 1355 мифологических мотивов в 337традициях (на ноябрь 2009 в ней 1483 мотива и 470 традиций). Для этого на протяжениипочти двадцати лет были проанализированы более 5500 публикаций на германских,романских, славянских и прибалтийско-финских языках, использованы также некоторыенеопубликованные материалы. Под мотивом понимаются повторяющиеся образы, эпизодыили их сочетания максимальной протяженности, встречающиеся в двух и более (практически- во многих) текстах.
В базу данных включались только такие мотивы, которые обнаруженыне менее, чем в четырех традициях. Под традицией понимается совокупность текстов,записанных у одной этно-языковой группе.В базе данных для всех традиций в бинарной форме фиксируется наличие или отсутствиекаждого мотива в проанализированных источниках.Следует подчеркнуть, что наличие 0 в некоторой позиции традиции не обязательнодостоверно свидетельствует о реальном отсутствии мотива ввиду недостаточной изученностинекоторых традиций. Последнее обстоятельство не позволяет использовать в качествефункции близости стандартные метрики Евклида или Хэмминга, которые предполагаютсуммирование совпадений по всем сюжетам, что приведёт к установлению высокой близостимежду двумя слабо исследованными традициями.
В связи с этим были выдвинутыальтернативные функции расстояния между традициями T[i] и T[j] .Функция Sс(T[i], T[j])=1- 0.5*{ k*С(t[i],t[j] /N +1}, где С(t[i],t[j])представляет собойвеличину статистики критерия Хи-квадрат, при оценивании достоверности связи междудвумя дихотомическими разбиениями. N - общее количество мотивов в исследуемой базе,k=1, если мотивы в среднем чаще встречаются в T[j] при условии наличия их в T[i].k=-1, если мотивы в среднем реже появляются в T[j] при условии наличия их в T[i].Выявление однородных групп традиций. Для выявления групп традиций с близкимхарактеромвстречаемостимифологическихмотивовиспользовалсяширокораспространённый метод иерархической группировки.На начальном этапе каждая традиция считалась отдельным кластером.На каждом шаге происходит объединение кластеров с миниимальным значениемусреднённой (по всем парам объектов из разных кластеров) функции расстояния.Процесс продолжался до тех пор пока традиции не оказывались объединёнными в заданноеисследователем число кластеров.На первом этапе исследования проводились для индейских традиций АмериканскогоконтинентаПроведённые исследования показали, что традиции в кластерах, полученных согласносходству мифологических мотивов, оказываются, как правило, также близкимигеографически.На приводимых далее рисунках результаты кластеризации показаныгеографических координат при заданном числе кластеров равным 8 и 11.всистемеДополнительным способом оценки сходства между традициями (или группами традиций) T1и T2 является вычисление коэффициента корреляции расстояния до T1 и T2 набора другихтрадиций.Использовался набор всех индейских традиций американского континента.Таблица 1.
Коэффициенты корреляции между средними расстояниями американскихФольклорных традиций до соответствующих пар кластеров.1.000.290.00 0.330.01-0.42-0.32-0.28-0.17 -0.270.000.260.291.000.48 0.460.46-0.37-0.58-0.43-0.21 -0.460.010.420.000.481.00 0.260.470.17-0.30-0.30-0.10 -0.130.12 0.090.330.460.26 1.000.55-0.29-0.37-0.310.08 -0.300.060.320.020.460.47 0.551.000.03-0.41-0.34-0.04 -0.270.100.24-0.42-0.370.17 -0.290.031.000.380.150.10 0.45 0.43 0.04-0.32-0.58-0.30 -0.37-0.410.381.000.750.37 0.64 0.68 0.05-0.28-0.43-0.30 -0.31-0.340.150.751.000.34 0.38 0.39-0.17-0.21-0.10 0.08-0.040.100.370.341.00 0.17 0.24 0.14-0.46-0.13-0.270.450.640.380.17 1.00 0.48 0.05-0.27-0.300.01-0.26-0.42-0.12-0.32-0.240.430.680.390.24 0.48 1.00 0.080.000.01-0.090.060.100.040.05-0.010.14 0.05 0.08 1.00Таблица 2. Коэффициенты корреляции между средними расстояниями американскихФольклорных традиций для пар (кластер –внеамерикнская традиция).Chinese_0.13-0.130.22-0.090.160.580-0.140.010.090.160.04Garo_Chin_Mizo_Kachari_0.0025-0.0660.33-0.030.150.620.21-0.0390.010.260.460.018Hadza_Sandawe-0.42-0.34-0.06-0.160.0570.370.470.550.320.460.350.20Chukchi0.780.380.240.400.31-0.22-0.47-0.49-0.19-0.28-0.320.028Evenk:_Baikal_Amur0.350.540.570.480.61-0.04-0.50-0.46-0.19-0.26-0.270.037Ainu0.610.150.110.330.15-0.03-0.14-0.200.16-0.19-0.080.11-0.26-0.49-0.17-0.21-0.240.470.810.600.370.710.520.12New_Guinea_PapuansНа втором этапе исследования проводились для традиций, распространённых по всемумируНа приводимых далее рисунках результаты кластеризации показаныгеографических координат при заданном числе кластеров равным от 2 до 8.всистемеИсследования подтвердили выраженную тенденцию, что традиции в кластерах, полученныхсогласно сходству мифологических мотивов, оказываются, как правило, также близкимигеографически.Иерархичес кая клас теризация- 2 клас тера1008060широта40200-20-40-60-80-200-150-100-500долгота501001502003 клас тера.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.