3083-1 (662786), страница 2

Файл №662786 3083-1 (Интерактивное исследование неколичественных данных: методика и инструментарий) 2 страница3083-1 (662786) страница 22016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

Исследование свойств полученных групп и сравнительная групповая статистика помогает оценить качество классификации. В результате может быть принято решение изменить параметры классификации. Или, если классификация представляется неудовлетворительной, найденные классы и/или объекты, которые не попали ни в один класс, могут быть выделены в новые наборы данных, и для каждого из них всю процедуру можно повторить с самого начала.

Рис. 4. Схема исследования в соответствии со вторым сценарием анализа.

Третий сценарий анализа применим в ситуации, когда ничего определенного об исследуемом наборе данных не известно. В таком случае задача не может быть сформулирована более конкретно, чем "изучить набор данных" (см. рис 5а).

Рис. 5а. Схема исследования в соответствии с третьим сценарием анализа.

Сеанс работы можно начать с просмотра частот свойств. Основываясь на них, пользователь может выбрать несколько наиболее часто встречающихся свойств и принять их за эталонные. Дальнейшая последовательность работы примерно совпадает со вторым сценарием. Альтернативное решение состоит в выборе объектов, содержащих наиболее часто встречаемые свойства, определение их в качестве эталонных и переходе к работе по первому сценарию.

Рис. 5б. Схема исследования в соответствии с третьим сценарием анализа.

В качестве еще одного подхода (см. рис 5б) можно предложить начать сеанс работы с выбора одного объекта в качестве эталона случайным образом. Затем просмотреть близости до него с тем чтобы найти самые непохожие на него объекты, которые потенциально могут служить дополнительными (альтернативными) эталонами. Такого рода предварительный анализ можно продолжать до тех пор, пока не сформируется разумный набор эталонов. После этого снова вступает в действие первый сценарий.

Набор возможных стратегий исследования не ограничивается тремя вышеописанными сценариями. Следует указать по крайней мере еще на три важных применения QualiDatE.

Близость к эталону можно рассматривать как меру принадлежности в смысле теории нечетких множеств. Если исследователь достаточно хорошо знаком с понятиями этой теории, то он может оперировать непосредственно со значениями близости и создавать нечеткие классификации, не используя классификационных функций программы. Кстати говоря, классификация типа покрытие, как она реализована в программе, имеет своим результатом то, что в теории нечетких множеств называется альфа-сечением нечеткого множества.

QualiDatE может использоваться в качестве инструмента для построения кросс-табуляций. Ее отличие от традиционных процедур кросс-табуляции заключается в том, что благодаря определенной взаимозаменяемости понятий группы и сущности, QualiDatE позволяет производить кросс-табуляцию для составных свойств - иначе говоря, для любых комбинаций признаков.

QualiDatE может использоваться как своего рода нечеткая база данных. Выбор объектов на основе близости до эталона может рассматриваться как нечеткий запрос - что-то вроде "найти все, что похоже на это до такой-то степени". Сама эта степень задается установлением весов и порогов. В частном случае нечеткость запроса может быть сведена к нулю, так что его результатом будет являться выборка, основанная на точном совпадении некоторых определенных значений.

* * *

Перейдем к примеру исследования, реализующего то, что выше было описано как второй сценарий.

Предлагаемый к рассмотрению набор данных содержит сведения о членах 1-ой Государственной Думы 1906-ого года. Все данные в нем являются качественными и были извлечены из текстовых источников, таких как биографии, справочники и т.п. Набор данных содержит сведения о фракционной принадлежности каждого депутата и некоторые его социальные характеристики[4].

Рассматриваемые данные используются для выяснения того, существовало ли какое-либо соответсвие между принадлежностъю к фракции и социальным профилем депутата. В центре исследования стоят две наиболее крупные фракции 1-ой Государственной Думы - трудовики и кадеты.

Соответствующая формальная гипотеза, которая должна быть верифицирована, формулируется следующим образом:

cуществуют относительно однородные (в терминах социальных характеристик) группы лиц;

cуществует соответствие между этими группами и принадлежностью к фракции. Т.е. существуют "типичный трудовик" и "типичный кадет", которые представляют ядра своих фракций.

Формальная задача разбивается на следующие четыре шага:

найти типичные характеристики для каждой фракции;

найти эталонных депутатов;

построить кластеры депутатов, игнорируя их фракционную принадлежность;

исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".

При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.

Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.

Таблица 1. Близости основных свойств до эталонных.

Эталоны

Свойства

Трудовик

Кадет

трудовик

трудовик

1.000

0.000

русский

0.199

0.242

общее образ.

0.242

0.072

начальое образ.

0.247

0.053

крестьян.происх.

0.305

0.096

крестьянин

0.296

0.071

"земледелец"

0.223

0.070

кадет

зарплата

0.172

0.351

русский

0.199

0.242

юридич. образ.

0.037

0.219

высшее образ.

0.068

0.438

дворянин

0.005

0.307

дворянское происх.

0.015

0.226

кадет

0.000

1.000

Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".

На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.

Таблица 2а. Распределение фракционной принадлежности среди кластеров "Типичный кадет" и "Типичный трудовик".

Фракции

Типичные кадеты

Типичные трудовики

Остальыне

трудовики

0.023

0.323

0.172

беспартийные

0.045

0.423

0.144

правые

0.114

0.054

0.072

Дем. реформ

0.045

0.000

0.017

националисты

0.000

0.000

0.052

кадеты

0.705

0.100

0.412

соц.-дем.

0.203

0.062

0.027

польск. фракц.

0.045

0.015

0.093

Таблица 2б. Распределение кластеров "Типичный кадет" и "Типичный трудовик" среди различных фракций.

Фракции

Типичный кадеты

Типичные трудовики

Остальные

трудовики

0.011

0.452

0.538

беспартийные

0.020

0.556

0.424

правые

0.152

0.212

0.636

Дем. реформ

0.286

0.000

0.714

националисты

0.000

0.000

1.000

кадеты

0.189

0.079

0.732

соц.-дем.

0.059

0.471

0.471

польск. фракц.

0.065

0.065

0.871

Для того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). Две таблицы показывают, что около трех четвертей "типичных кадетов" являются в действительности кадетами, но доля первых среди вторых невысока. Таким образом, "типичные кадеты" являются небольшой, но очень однородной группой в своей фракции. Доля "типичных кадетов" достаточно высока и в двух других фракциях - правых и партии демократических реформ - политических соседей кадетов. Случай "типичных трудовиков" несколько более сложен. Они составляют около 1/2 трудовиков, социал-демократов и беспартийных членов Думы; с другой стороны, лишь треть из них являются членами фракции трудовиков, в то время, как их относительное большинство являются беспартийными. Последнее означает, что "типичный трудовик" (или по сути типичный крестьянин) обладал низкой политической самоидентификацией. Тем не менее, доля трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.

Цифры в колонке "Остальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. Итак, мы выделяем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследования. Классификация свойств в новом наборе данных позволяет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеются две пары взаимоисключающих свойств.

Таблица 3. Кластеры "Нетипичные кадеты" и "Нетипичные трудовики".

Эталоны

Свойства

Трудовик

Кадет

Жалование

Землевладелец

трудовик

жалование

0.238

0.339

1.000

0.000

трудовик

1.000

0.000

0.238

0.023

крест.происх.

0.302

0.101

0.230

0.043

крестьянин

0.271

0.061

0.161

0.055

кадет

жалование

0.238

0.339

1.000

0.000

русский

0.176

0.226

0.258

0.209

происх. не указ.

0.060

0.252

0.271

0.114

высшее образ.

0.092

0.420

0.420

0.334

дворянин

0.000

0.248

0.124

0.455

землевладелец

0.023

0.217

0.000

1.000

TD>происх. не указ.

0.133

0.361

0.432

0.099

кадет

0.000

1.000

0.339

0.217

Это - значения источника дохода "жалование" и "землевладение" и такие значения сословной принадлежности, как "не указано" и "дворянин". Этот факт позволяет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. Для того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. И действительно, мы видим, что землевладение тесно коррелирует с "дворянством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). Второй слой трудовиков является одномодальным, совпадая с первым по сословному происхождению и принадлежности и отличаясь по источнику дохода (который здесь преимущественно жалование). Вероятно, эту группу можно назвать сельским средним классом. В терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с понятием сельского среднего класса.

Характеристики

Тип файла
Документ
Размер
775,17 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7030
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее