Диссертация (1147112), страница 23
Текст из файла (страница 23)
ИлиескуРумыния 2000 2М. ДжоанэРумыния 2009 2Т. БэсескуРумыния 2009 2П. ПорошенкоУкраина 2014 1Мы видим, что только результаты С. Саркисяна попали во все три таблицы. Республиканская партия Армении показав значение R 2 примерно в 0,47 в последний список уже не вошла, хотя является единственным не упомянутым в ней участником выборов со значением R 2 винтервале от 0,40 до 0,50.
Таким образом, Армения в целом может считаться отличным примером аномальных результатов по всем показателями. В отличие от Армении, для других стран(Украина, Эстония), показавших большие отклонения от ожидаемых величин, регрессия малочто объясняет относительно зависимости результатов от явки. И наоборот, для оставшихсястран, в которых регрессия неплохо объясняет успехи участников выборов, отклонения от ожидаемых значений не так велики.Другим показателем, который можно было использовать для регрессионного анализа, является количество недействительных бюллетеней. К счастью, в отличие от числа проголосовавших на дому и т. п. данных, число недействительных бюллетеней доступно для подавляющегобольшинства случаев (за исключением Латвии, Албании в 2009 г., Украины в 2012 г.).
Однакорезультаты регрессионного анализа (при использовании классической трактовки успехов кандидатов) оказались весьма скромными. За несколькими исключениями на региональном уровне,подобные регрессии имеют низкий коэффициент детерминации. Распределение значений коэффициента R2 представлено на рис. 43 (в национальном и региональном разрезах).102Рисунок 43: Распределение значений коэффициента детерминации для регрессионных моделейс недействительными бюллетенями.Принадлежность региональных моделей с аномально высокими значениями коэффициента детерминации представлены в таблице 10. Как следует из этой таблицы, в основном такиеаномалии характерны для Болгарии, причём только в сравнительно недавний период (выборы2000-х годов таких показателей не демонстрируют).Таблица 10: Аномальные регрессионные модели на региональном уровне для недействительныхбюллетеней.РегионУчастникСтранаГод ТурБессарабка Социалистическая партия МолдовыМолдавия 2014ПловдивГЕРББолгария 2014ПловдивДвижение за права и свободыБолгария 2014БургасРосен Плевнелиев — Маргарита ПоповаБолгария 2011 1РазградРосен Плевнелиев — Маргарита ПоповаБолгария 2011 1РусеРосен Плевнелиев — Маргарита ПоповаБолгария 2011 1ШуменРосен Плевнелиев — Маргарита ПоповаБолгария 2011 1Итак, насколько же состоятельно утверждение о том, что наклон регрессионной прямой,полученной по методу Собянина-Суховольского, должен соответствовать проценту, набранномуучастником выборов? Для ответа на этот вопрос можно вновь обратиться к регрессионному анализу.
На рис. 44 построен график распределения наблюдений и прямой, полученной для модели«доля голосов участника ~ наклон регрессионной прямой×100», с 95% доверительным интервалом. Дополнительно на графике построена прямая, соответствующая равным значениям долиголосов и наклона регрессионной прямой.103Рисунок 44: Регрессионная прямая для модели «процент голосов участника ~ наклонрегрессионной прямой».На национальном уровне, как следует из рис. 44, ожидания, лежащие в основе методаСобянина-Суховольского оправдываются: действительно, прямая, соответствующая равенствузначений, лежит в доверительном интервале полученной регрессионной прямой, даже невзираяна наличие наблюдений экстремального характера.
Однако на региональном уровне (рис. 45)это уже не так: прямая равенства величин лежит вне 95% доверительного интервала для результата регрессии. Очевидно, на региональном уровне есть довольно существенные различия вповедении электората, которые требуют отдельного изучения.104Рисунок 45: Регрессионная прямая для модели «процент голосов участника ~ наклонрегрессионной прямой» (по регионам).Тем не менее, этот результат подкрепляет выводы, сделанные на материале предыдущегопараграфа: более разнообразные результаты регионов при агрегации порождают более умеренные результаты на национальном уровне, а не наоборот. Следовательно, предположение о том,что аномальные результаты на национальном уровне вызываются объединением различныхрегионов, представляется сомнительным.
Что же касается метода Собянина-Суховольского, то,несмотря на то, что его категорические постулаты оказались мало соответствующими действительности, в целом его можно считать вполне действенным методом для поиска аномалий вэлекторальных данных. Пусть регрессионные прямые, как правило, не проходят через началокоординат, а их наклон не равен полученным участниками выборов долям голосов, но их отклонение от обоих этих параметров в норме сравнительно невелико. А главное, как и ожидалось,регрессия в подавляющем большинстве случаев не описывает результаты голосования.
И сочетание больших отклонений параметров регрессионной прямой от ожидаемых величин с весомым значением коэффициента детерминации, несомненно, свидетельствует об аномальном результате.1052.4 Характеристики распределения цифр в данныхэлекторальной статистики и недостатки методов их анализаПопулярным подходом к выявлению аномальных данных электоральной статистики является анализ частоты появления цифр в различных разрядах чисел. В поисках эталонного распределения обычно обращаются к закону Ньюкомба-Бенфорда (чаще называемым просто законом Бенфорда), который гласит, что для чисел, описывающих естественные феномены (длинырек, количество кварталов в городах) вероятность встретить ту или иную цифру в первом разряде числа неодинакова, а выражается формулой159d +1) , d ∈{1,2,3,4,5,6,7,8,9}(5)d— вероятность встретить цифру d в разряде 1.
С помощью ряда преобразований этуdP1 =log10 (где Pd1формулу можно распространить и на последующие разряды чисел, при этом разница в частотепоявления малых (1,2,3) и больших (7,8,9) цифр будет сокращаться, и примерно с пятогоразряда появление любой цифры становится равновероятным. При применении законаБенфорда к анализу электоральных данных предполагается, что сознательное вмешательствочеловека вызовет отклонение наблюдаемых частот от предсказываемых законом Бенфорда — инаоборот, в естественных условиях частота появления цифр должна соответствовать законуБенфорда. Против этого постулата неоднократно выдвигались обоснованные возражения 160,однако именно он обосновывает применение закона для поиска аномалий — аналогичныйподход успешно зарекомендовал себя в финансовом аудите161.Впрочем, закон Бенфорда — не единственный, который можно предложить для получения нормативных частот.
Известен также закон Стиглера 162, который описывает распределениецифр в первом разряде чисел, и лучше отражает действительность в ряде случаев (например, нафинансовых рынках163). Вероятности для цифр в первом разряде для закона Стиглера определяются формулой159 Fewster, R.M. A Simple Explanation of Benford’s Law // The American Statistician. February 2009. Vol. 63.
No. 1. P.26.160 Например: Deckert J., Myagkov M., Ordeshook P.C. The Irrelevance of Benford’s Law for Detecting Fraud inElections.//Caltech/MITVotingTechnologyProjectWorkingPaper.No.9.2010.http://vote.caltech.edu/content/irrelevance-benfords-law-detecting-fraud-elections.161 Nigrini, Mark J. Benford’s law: applications for forensic accounting, auditing, and fraud detection. 2012. John Wiley &Sons, Inc., Hoboken, New Jersey. 330 P.162 Lee J.,Tam Cho W.K., Judge G.G. Stigler’s approach to recovering the distribution of first significant digits in naturaldata sets // Statistics & Probability Letters. 2010. Volume 80. Issue 2. P.
82–88.163 Rodriguez R.J. First Significant Digit Patterns From Mixtures of Uniform Distributions. // The American Statistician.2004. Vol. 58:1. P. 64–71.106dd ln(d )−( d+1)ln (d +1)+(1+P1 =10ln(10))9(6),d ∈{1,2,3,4,5,6,7,8,9}9где P 1 — вероятность встретить цифру d в разряде 1. Округлённые до четвёртого знака послеdзапятой вероятности по законам Бенфорда и Стиглера представлены в таблице 11.Таблица 11: Распределение цифр по законам Бенфорда и СтиглераРаспределение цифр в 1–4 разрядах по закону БенфордаРазряд 012345678#1— 0,3010 0,1761 0,1249 0,0969 0,0792 0,0669 0,0580 0,0512#2 0,1197 0,1139 0,1088 0,1043 0,1003 0,0967 0,0934 0,0904 0,0876#3 0,1018 0,1014 0,1010 0,1006 0,1002 0,0998 0,0994 0,0990 0,0986#4 0,1002 0,1001 0,1001 0,1001 0,1000 0,1000 0,0999 0,0999 0,0999Распределение цифр в первом разряде по закону СтиглераРазряд 012345678#1— 0,2413 0,1832 0,1455 0,1174 0,0950 0,0764 0,0605 0,046590,04580,08500,09830,099890,0340Закон Бенфорда обычно применяют ко второму разряду чисел — утверждается, что частота появления цифр в первом разряде числа не соответствует закону Бенфорда, но это не снижает его полезности для анализа второго разряда (т.
н. Закон Бенфорда по второй цифре, 2BL)164.Это, конечно, подрывает уверенность в применимости закона Бенфорда к подобным данным вцелом — поскольку вероятности для последующих разрядов в законе Бенфорда зависят от вероятностей для первого разряда, несовпадение в первом означает и неприменимость закона к последующим.Есть и прямо противоположная тенденция — анализ последних, младших разрядов чисел. Здесь можно встретить две гипотезы о нормативном распределении цифр — равновероятном (как в методе Бебера-Скакко165) и Бенфордовском. В последнем случае, очевидно, частотабудет зависеть от того, на какой разряд по счёту приходится младший разряд числа, и для чиселразной длины будет различной.