3083-1 (662786), страница 2
Текст из файла (страница 2)
Исследование свойств полученных групп и сравнительная групповая статистика помогает оценить качество классификации. В результате может быть принято решение изменить параметры классификации. Или, если классификация представляется неудовлетворительной, найденные классы и/или объекты, которые не попали ни в один класс, могут быть выделены в новые наборы данных, и для каждого из них всю процедуру можно повторить с самого начала.
Рис. 4. Схема исследования в соответствии со вторым сценарием анализа.
Третий сценарий анализа применим в ситуации, когда ничего определенного об исследуемом наборе данных не известно. В таком случае задача не может быть сформулирована более конкретно, чем "изучить набор данных" (см. рис 5а).
Рис. 5а. Схема исследования в соответствии с третьим сценарием анализа.
Сеанс работы можно начать с просмотра частот свойств. Основываясь на них, пользователь может выбрать несколько наиболее часто встречающихся свойств и принять их за эталонные. Дальнейшая последовательность работы примерно совпадает со вторым сценарием. Альтернативное решение состоит в выборе объектов, содержащих наиболее часто встречаемые свойства, определение их в качестве эталонных и переходе к работе по первому сценарию.
Рис. 5б. Схема исследования в соответствии с третьим сценарием анализа.
В качестве еще одного подхода (см. рис 5б) можно предложить начать сеанс работы с выбора одного объекта в качестве эталона случайным образом. Затем просмотреть близости до него с тем чтобы найти самые непохожие на него объекты, которые потенциально могут служить дополнительными (альтернативными) эталонами. Такого рода предварительный анализ можно продолжать до тех пор, пока не сформируется разумный набор эталонов. После этого снова вступает в действие первый сценарий.
Набор возможных стратегий исследования не ограничивается тремя вышеописанными сценариями. Следует указать по крайней мере еще на три важных применения QualiDatE.
Близость к эталону можно рассматривать как меру принадлежности в смысле теории нечетких множеств. Если исследователь достаточно хорошо знаком с понятиями этой теории, то он может оперировать непосредственно со значениями близости и создавать нечеткие классификации, не используя классификационных функций программы. Кстати говоря, классификация типа покрытие, как она реализована в программе, имеет своим результатом то, что в теории нечетких множеств называется альфа-сечением нечеткого множества.
QualiDatE может использоваться в качестве инструмента для построения кросс-табуляций. Ее отличие от традиционных процедур кросс-табуляции заключается в том, что благодаря определенной взаимозаменяемости понятий группы и сущности, QualiDatE позволяет производить кросс-табуляцию для составных свойств - иначе говоря, для любых комбинаций признаков.
QualiDatE может использоваться как своего рода нечеткая база данных. Выбор объектов на основе близости до эталона может рассматриваться как нечеткий запрос - что-то вроде "найти все, что похоже на это до такой-то степени". Сама эта степень задается установлением весов и порогов. В частном случае нечеткость запроса может быть сведена к нулю, так что его результатом будет являться выборка, основанная на точном совпадении некоторых определенных значений.
* * *
Перейдем к примеру исследования, реализующего то, что выше было описано как второй сценарий.
Предлагаемый к рассмотрению набор данных содержит сведения о членах 1-ой Государственной Думы 1906-ого года. Все данные в нем являются качественными и были извлечены из текстовых источников, таких как биографии, справочники и т.п. Набор данных содержит сведения о фракционной принадлежности каждого депутата и некоторые его социальные характеристики[4].
Рассматриваемые данные используются для выяснения того, существовало ли какое-либо соответсвие между принадлежностъю к фракции и социальным профилем депутата. В центре исследования стоят две наиболее крупные фракции 1-ой Государственной Думы - трудовики и кадеты.
Соответствующая формальная гипотеза, которая должна быть верифицирована, формулируется следующим образом:
cуществуют относительно однородные (в терминах социальных характеристик) группы лиц;
cуществует соответствие между этими группами и принадлежностью к фракции. Т.е. существуют "типичный трудовик" и "типичный кадет", которые представляют ядра своих фракций.
Формальная задача разбивается на следующие четыре шага:
найти типичные характеристики для каждой фракции;
найти эталонных депутатов;
построить кластеры депутатов, игнорируя их фракционную принадлежность;
исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".
При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.
Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.
Таблица 1. Близости основных свойств до эталонных.
| Эталоны | Свойства | Трудовик | Кадет |
| трудовик | трудовик | 1.000 | 0.000 |
| русский | 0.199 | 0.242 | |
| общее образ. | 0.242 | 0.072 | |
| начальое образ. | 0.247 | 0.053 | |
| крестьян.происх. | 0.305 | 0.096 | |
| крестьянин | 0.296 | 0.071 | |
| "земледелец" | 0.223 | 0.070 | |
| кадет | зарплата | 0.172 | 0.351 |
| русский | 0.199 | 0.242 | |
| юридич. образ. | 0.037 | 0.219 | |
| высшее образ. | 0.068 | 0.438 | |
| дворянин | 0.005 | 0.307 | |
| дворянское происх. | 0.015 | 0.226 | |
| кадет | 0.000 | 1.000 |
Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".
На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.
Таблица 2а. Распределение фракционной принадлежности среди кластеров "Типичный кадет" и "Типичный трудовик".
| Фракции | Типичные кадеты | Типичные трудовики | Остальыне |
| трудовики | 0.023 | 0.323 | 0.172 |
| беспартийные | 0.045 | 0.423 | 0.144 |
| правые | 0.114 | 0.054 | 0.072 |
| Дем. реформ | 0.045 | 0.000 | 0.017 |
| националисты | 0.000 | 0.000 | 0.052 |
| кадеты | 0.705 | 0.100 | 0.412 |
| соц.-дем. | 0.203 | 0.062 | 0.027 |
| польск. фракц. | 0.045 | 0.015 | 0.093 |
Таблица 2б. Распределение кластеров "Типичный кадет" и "Типичный трудовик" среди различных фракций.
| Фракции | Типичный кадеты | Типичные трудовики | Остальные |
| трудовики | 0.011 | 0.452 | 0.538 |
| беспартийные | 0.020 | 0.556 | 0.424 |
| правые | 0.152 | 0.212 | 0.636 |
| Дем. реформ | 0.286 | 0.000 | 0.714 |
| националисты | 0.000 | 0.000 | 1.000 |
| кадеты | 0.189 | 0.079 | 0.732 |
| соц.-дем. | 0.059 | 0.471 | 0.471 |
| польск. фракц. | 0.065 | 0.065 | 0.871 |
Для того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). Две таблицы показывают, что около трех четвертей "типичных кадетов" являются в действительности кадетами, но доля первых среди вторых невысока. Таким образом, "типичные кадеты" являются небольшой, но очень однородной группой в своей фракции. Доля "типичных кадетов" достаточно высока и в двух других фракциях - правых и партии демократических реформ - политических соседей кадетов. Случай "типичных трудовиков" несколько более сложен. Они составляют около 1/2 трудовиков, социал-демократов и беспартийных членов Думы; с другой стороны, лишь треть из них являются членами фракции трудовиков, в то время, как их относительное большинство являются беспартийными. Последнее означает, что "типичный трудовик" (или по сути типичный крестьянин) обладал низкой политической самоидентификацией. Тем не менее, доля трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.
Цифры в колонке "Остальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. Итак, мы выделяем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследования. Классификация свойств в новом наборе данных позволяет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеются две пары взаимоисключающих свойств.
Таблица 3. Кластеры "Нетипичные кадеты" и "Нетипичные трудовики".
| Эталоны | Свойства | Трудовик | Кадет | Жалование | Землевладелец | ||||||
| трудовик | жалование | 0.238 | 0.339 | 1.000 | 0.000 | ||||||
| трудовик | 1.000 | 0.000 | 0.238 | 0.023 | |||||||
| крест.происх. | 0.302 | 0.101 | 0.230 | 0.043 | |||||||
| крестьянин | 0.271 | 0.061 | 0.161 | 0.055 | |||||||
| кадет | жалование | 0.238 | 0.339 | 1.000 | 0.000 | ||||||
| русский | 0.176 | 0.226 | 0.258 | 0.209 | |||||||
| происх. не указ. | 0.060 | 0.252 | 0.271 | 0.114 | |||||||
| высшее образ. | 0.092 | 0.420 | 0.420 | 0.334 | |||||||
| дворянин | 0.000 | 0.248 | 0.124 | 0.455 | |||||||
| землевладелец | 0.023 | 0.217 | 0.000 | 1.000 | |||||||
| TD>происх. не указ. | 0.133 | 0.361 | 0.432 | 0.099 | |||||||
| кадет | 0.000 | 1.000 | 0.339 | 0.217 | |||||||
Это - значения источника дохода "жалование" и "землевладение" и такие значения сословной принадлежности, как "не указано" и "дворянин". Этот факт позволяет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. Для того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. И действительно, мы видим, что землевладение тесно коррелирует с "дворянством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). Второй слой трудовиков является одномодальным, совпадая с первым по сословному происхождению и принадлежности и отличаясь по источнику дохода (который здесь преимущественно жалование). Вероятно, эту группу можно назвать сельским средним классом. В терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с понятием сельского среднего класса.















