Диссертация (1147112), страница 26
Текст из файла (страница 26)
Это, разумеется, лишено всякого смысла.Далее, можно уверенно сказать, что данные электоральной статистики — по крайнеймере в разрезе числа полученных голосов — не подчиняются закону Бенфорда изначально. Безусловно, и это хорошо видно на графиках, распределение вероятностей является схожим с бенфордовским — ярко выраженное преобладание малых цифр в старших разрядах, постепенносходящее к равновероятному в последующих. Однако закон Бенфорда предполагает пропорции,стабильно недооценивающие пропорции малых цифр и переоценивающие доли больших.
Ивнесение поправки на ограниченное пространство допустимых значений не помогает решитьэту проблему. Кажется разумным, что сама логика бенфордианского анализа имеет право нажизнь в качестве метода поиска аномалий, но само эталонное распределение необходимо использовать другое. Вполне возможно, что окажется плодотворным выведение его из эмпирических данных, например, с помощью подбора параметров обобщённого закона Бенфорда168.Нельзя списывать со счетов и метод Бебера-Скакко, по крайней мере с точки зрения концепции.
Если удастся установить истинный закон, которому подчиняются цифры в данных электоральной статистики, то знание того, как от случайных чисел отличаются выдуманные человеком псевдослучайные, поможет идентифицировать случаи, когда подсчёт голосов заменялся фабрикацией данных протоколов. Однако в его текущем виде метод, конечно, применения не имеет: как следует из таблиц 19 и 20, этот метод «отбраковывает» значительную часть выборов встранах Восточной Европы, при этом, если использовать исходную гипотезу о равновероятномраспределении цифр, питает странную склонность пропускать вторые туры президентских выборов и отбрасывать парламентские. Это ещё раз подтверждает догадку о том, что распределение цифр, кроме математических ограничений общего рода (как-то ограничение по области допустимых значений сверху или снизу), находится и под влиянием уровня фрагментации: очевидно, что первостепенным отличием второго тура президентских выборов от парламентских ипервого тура президентских является число кандидатов и соотношение их сил.168 Pietronero L.
Explaining the uneven distribution of numbers in nature: the laws of Benford and Zipf / L. Pietronero; E.Tosatti; V. Tosatti , A. Vespignani // Physica. A 293. 2001. P. 297–304.120Таким образом, можно сделать вывод, что методы, основанные на анализе частоты появления цифр в различных разрядах чисел, в их нынешнем состоянии не пригодны для осмысленного выявления аномалий. Выявляемые ими отклонения от нормы носят неопределённый характер, да и сама норма не является подкреплённой эмпирическими данными. Встречающиеся иногда попытки «упростить» анализ, избавившись от «неудобных» чисел (например, перейдя на более высокий уровень агрегации, где число голосов будет иметь большее количество разрядов,или же отбросив результаты миноритарных участников 169, которые на уровне избирательныхучастков исчисляются единичными голосами), разумеется, совершенно неприемлемы для исследовательской практики.2.5 Общность характеристик результатов голосования погеографическому признакуЧетвёртым подходом к поиску электоральных аномалий является географический подход.
При этом он же является наименее разработанным; этот подход зиждется на нетривиальныхпредположениях о свойствах электората, но для них нет ни достоверного теоретического, ни эмпирического обоснования. Эти предположения сводятся к тому, что существует некоторая функция, с помощью которой можно сопоставить географические координаты и значения электоральных показателей (например, уровень поддержки кандидата); существенное отклонение отожидаемых значений в таком случае будет признаком вмешательства в электоральный процесс.В наиболее простом виде в качестве такой функции предполагается зависимость от расстояниямежду географическими точками: чем ближе расположены избирательные участки (и, следовательно, чем ближе друг к другу живут голосующие на них избиратели), тем меньше должнобыть различие в результатах голосования на этих участках. Следует сделать оговорку, что географический подход в широком смысле слова, конечно, нередко используется для анализа электоральных аномалий.
Однако в таких случаях речь идёт об оперировании данными, разделёнными на подгруппы, соответствующие довольно крупным территориальным единицам (регионам,областям, районам). Это, разумеется, также является географической классификацией, но достаточно поверхностного, обыденного свойства. В данном же параграфе речь идёт об обращении ктаким параметрам электоральных данных как адреса и координаты участков для голосования —169 Например, в данных для репликации к статье Б.
Бебера и А. Скакко, доступных по адресуhttp://thedata.harvard.edu/dvn/dv/pan/faces/study/StudyPage.xhtml?globalId=hdl:1902.1/17151 видно, что в наборахданных содержатся результаты только основных участников и исключены результаты второстепенных.121работа с данными на таком уровне является редкостью. Впрочем, этому есть разумное объяснение: в отличие от остальных методов, рассмотренных в этом исследовании, работа с географическими данными предполагает гораздо большие трудозатраты при неясных перспективах исследования.
В отсутствии чёткого представления о географических свойствах электората сложно оправдать затраты на выяснение адресов избирательных участков и тем более сопоставлениеих с географическими координатами. Поэтому обращение к местоположению участков становится уделом публицистики и происходит в разрезе частных случаев.В рамках данного исследования сделана попытка развить это направление электоральныхисследований на научной основе.
В качестве основной гипотезы было выбрано предположениео том, что результаты голосования на размещённых по одному адресу избирательных участкахне должны сильно отличаться друг от друга. Подобная постановка вопроса обусловлена тем, чтопрактика размещения избирательных участках в одном здании (обычно школе) является широкораспространённой в Восточной Европе; очевидно, что участки, размещённые по одному адресу,обслуживают предельно близкие географически группы избирателей. Кроме того, адреса избирательных участков известны для достаточно большого количества случаев, что позволяет оценить общую картину, не обращаясь к обработке географических координат.В качестве сравниваемых показателей были отобраны уровень явки, процент голосов, полученных тремя лидерами голосования и процент недействительных бюллетеней.
Для проверкигипотезы о близости результатов совмещённых избирательных участков для каждого случая (порегионам) и для каждого показателя были получены две совокупности: множество значенийразницы по показателю между совмещёнными участками и значения разницы по этому же показателю между всеми возможными парами участков. Если совмещалось более двух участков, торазница вычислялась для каждой возможной комбинации из двух участков. В качестве порогового критерия была выбрана средняя разница между двумя произвольными избирательнымиучастками; для общей оценки определялась доля пар совмещённых участков, разница между которыми оказалась выше средней по региону.
Результат такой процедуры приведён на рис. 52.«Щёткой» под гистограммой отмечены совмещённые участки.122Рисунок 52: Распределение разниц по проценту голосов, набранных партией Право иСправедливость (Польша, 2015 г., Малопольское воеводство).Для обобщения полученных данных на национальном уровне разницы стандартизировались. Для нивелирования влияния различий между регионами общенациональные данные получались через сложение стандартизованных разниц по регионам. Результат этой процедурыпроиллюстрирован на рис.
53. Серым отмечены наблюдения, большие нуля. Поскольку данныевыражены в z-единицах, значения выше нуля соответствуют превышению средней.Рисунок 53: Показатели партии Право и Справедливость, на национальном уровне (Польша,2015 г.).123Всего адреса избирательных участков оказались доступны для 60 случаев (считая первыеи вторые туры президентских выборов раздельно). Статистика по числу адресов и совмещённыхучастков представлена на рис. 54. Бесспорными лидерами по общему числу совмещённых избирательных участков оказались Будапешт в Венгрии и Бухарест-Ильфов в Румынии (более 1000совмещённых УИК) — разительный контраст с модой распределения, равной двум.