Previous Entry Share Next Entry
"Доказательства" вбросов на выборах
alexandre_putt
В качестве самостоятельного добавления к предыдущему сообщению не могу не прокомментировать вновь и вновь всплывающее указание на фальсификацию выборов и вброс голосов пользу "Единой России". Эта тема поднималась как минимум 2 года назад, когда вышла любопытная статья Сергея Шпилькина, с которой я по случаю ознакомился. Так как аргументация за прошедшее время не изменилась ни на йоту, есть смысл её рассмотреть в отдельной записи. Сразу хочу сказать, что никакого отношения к этой партии я не имею и всегда относил себя к её противникам. Более того, я нисколько не сомневаюсь, что какая-то часть голосов была незаконно приписана "ЕР".

В качестве убедительного довода, доказывающего выборные махинации, обычно приводят следующий график, показывающий наличие положительной связи между явкой избирателей и количеством голосов


Отсюда, svetlako.

Надо сказать, такая аргументация поверхностна и довольно проста. Логически она сводится к следующему:

Если A имеет место фальсификация выборов, то имеем B вброс голосов в пользу "ЕР".
Если имеем B вброс голосов, то имеем C корреляцию между явкой и долей голосов в пользу "ЕР".

Отсюда делается вывод, раз имеем C (см. график), то A выборы сфальсифицированы.

Конечно, с логической точки зрения данный вывод несостоятелен. Но дело даже не в этом (пресловутая проблема индукции). В конце концов, никто не отрицает эмпирическую значимость наблюдённого факта С. Дело в практических выводах.

Каковы практические следствия этого тривиального замечания? Они следующие.

Представим себе, что у нас есть множество возможных альтернативных объяснений факта C, одинаково успешных (успешности достичь нетрудно, имея лишь один факт - график выше). Как мы вообще можем утверждать, что истинным объяснением является первое, а не второе или третье?

Формально - никак, у нас нет в распоряжении никакого убедительного критерия, позволяющего отсечь хотя бы часть правдоподобных объяснений. В этом и есть практическое значение упомянутой выше элементарной логической ошибки.

Набросать же множество правдоподобных объяснений не составит труда. Вот некоторые из них.

Возможное объяснение 1. Существование корреляции между политическими предпочтениями и вероятностью прийти на выборы и проголосовать. Например, сторонники т.н. оппозиции больше предрасположены не доверять сложившимся общественным институтам и просто игнорировать выборы. Достаточно посмотреть на тех, из чьих уст раздавались призывы бойкотировать выборы. Соответственно можно ожидать отрицательную корреляцию между кол-вом голосов, отданных оппозиционным партиям, и явкой. И наоборот, убеждённые сторонники "партии власти" скорее доверяют общественным институтам и более предрасположены к тому, чтобы прийти на участок и отдать свой голос.

Например, можно взять размер популяции "ЕР" в 5000, популяции "КПРФ" в 1000, склонность (вероятность) проголосовать за 50% и 25% соответственно и получить следующий замечательный график явки от количества голосов:


(см. также уточнение в конце)

В данном случае предполагая 50 избирательных участков с равным кол-вом избирателей.

Нетрудно убедиться, что без всяких вбросов и фальсификаций мы получили совершенно чёткую зависимость между явкой и долей голосов за гипотетическую "ЕР" (корреляция +0.94). Более того, разброс явки и доли проголосовавших за "ЕР" достаточно велики и вполне похожи на реальные. Всё дело в случайности и в двукратном различии в склонности к голосованию.

Конечно, я не утверждаю, что данная картина отражает действительность хоть в какой-то мере. И даже никаких оснований утверждать, что различие в склонности так велико, у меня нет. Но без дополнительных данных на этот вопрос ответить невозможно. Ясно только, что график зависимости числа голосов за "ЕР" от явки ровным счётом ничего не доказывает.

Возможное объяснение 2. Различия в других характеристиках голосующих популяций. Любое прозвучавшее утверждение о фальсификациях исходит из неявного предположения, что единственное различие между популяцией, голосующей за "ЕР", и популяцией, голосующей за оппозицию, заключается в только в размере популяции. Скажем, за "ЕР" в принципе могут проголосовать 30 млн. чел, за "КПРФ" - 15 млн, в остальном никаких отличий. На самом деле это совершенно не обязательно так и даже совсем не так (другой вопрос - в мере влияний этих различий).

Вообще наличие корреляции между двумя переменными не говорит о наличии между ними связи. Положительный наклон на графике может быть вызван не наличием прямой связи между явкой и популярностью "ЕР", а наличием связи между каким-нибудь третьим фактором и явкой. Это элементарное статистическое знание совершенно забывается в дискуссиях, которыми заполнились журналы. Таких факторов может быть множество, например, это могут быть различия между сельским и городским населением. Различия в возрастной и половой структуре населения между избирательными участками. И т.п.

Чуть большего внимания заслуживает следующий график, приведённый в статье Шпилькина за 2009 г.



Шпилькин совершенно основательно указывает на странность в графике (наличие двух вершин и "плеча"). Из этой странности он делает вывод, что все голоса, которые не укладываются в нормальное распределение со средним в районе 50% явки, являются вбросами. Вывод занимательный, но на чём он основан? Абсолютно ни на чём. Можно с чистым сердцем согласиться с тем, что правый 100% пик является вбросом (в действительности скорее всего данными Чечни, Дагестана, Татарстана и т.п.), конечно, не полностью, но по крайней мере в значительной части. Но из чего следует, что участки с явкой более 75% (примерный хвост предполагаемого нормального распределения) являются именно вбросами? Как видим, аргументация Шпилькина по сути ничем не отличается от рассмотренной выше. И здесь же можно представить ситуацию разнородности в популяции, голосующей за "ЕР". Такая разнородность в принципе может дать рождение подобному распределению, вопрос только в причине её существования. Обязательно ли это вбросы? Очевидно, нет.

Из всего этого следует, что для доказательства фальсификации необходимо как минимум наличие дополнительного ряда фактов, позволяющих отсечь альтернативные предположения. В частности, данных, позволяющих проанализировать распределения голосов в пользу партий в зависимости от социальных характеристик и т.п.

Что касается "коррекции" Шпилькина, то максимум, на что она может претендовать - дать верхнюю оценку возможным искажениям результатов голосования из-за вбросов. Реальное значение искажений может быть где угодно между нулём и этой верхней оценкой. Практически доказать фальсификации на выборах можно на мой взгляд только с помощью exit polls, учитывая, что и они требуют некоторой корректировки.

Важное уточнение (из комментариев) На самом деле в моей симуляции реальная причина положительного наклона на графике - разница в размере групп за разные партии. В такой простой модели разница в склонности голосования не играет значения. Т.е. мы будем наблюдать положительный наклон графика количества (не доли!) голосов за победившую партию всегда, когда разница в реальной поддержке партий среди населения достаточно велика. Т.е. предположение о разнице в склонности проголосовать излишне, хотя оно почти наверняка потребуется, чтобы объяснить другие особенности, наблюдаемые в реальных данных.

График очень большой, ленту раздуло
Нужно вставить в html цод ограничивающие размеры, вот так:

скобка "<" img width="840" height="600" src="http://trv-science.ru/uploads/Fig_9_0000.jpg">

Спасибо, сейчас подправлю, если livejournal опять не упадёт.

Естественно, что фальсификацию доказывают только факты хватания за руку фальсификаторов. И никакие анализы статистики не могут быть ДОКАЗАТЕЛЬСТВАМИ вообще.

А графики всего лишь не противоречат механизму, связанному с фальсификациями :)

Честно говоря, копаться в этом основательно времени нет, но похоже, что оценки масштаба фальсификаций, который дают, несколько преувеличены. Вопрос в мере, т.е. сколько "аномальности" можно отъесть за счёт неоднородности голосующих.

"И никакие анализы статистики не могут быть ДОКАЗАТЕЛЬСТВАМИ вообще. "

Думаю, что в специфичных случаях (вроде анализа ДНК) вполне могут быть в рамках судебной практики.

А в рамках социальных наук - сплошь и рядом :)

Да, логически Вы правы. Более того, я вообще всегда не слишком доверял разговорам о больших фальсификациях. Но после этих выборов, даже не пытаясь что-то узнать, мимоходом, получил сведения от четырёх разных людей, которые работали на разных участках. Все они в один голос говорят о различной возне с бюллетенями, с увольнением председателей коммисий, с автобусами и с прочим, столь же дурно пахнущем. И как-то я засомневался. Что-то всё было слишком беспардонно. Вспоминая выборы Ельцина, фальсификация которых, как я понял, была доказана в судебном порядке, не верить этим своим свидетелям у меня нет оснований.

Конечно, фальсификации и другие незаконные и нечестные методы борьбы в российских выборах - это печальная норма. Я с этим не спорю. Что меня возмущает, так это то, что множество неглупых людей пишет о фальсификациях, приводя доводы, которые научно как минимум бездоказательны и которые вызывают довольно простые контр-доводы.

Заниматься доказательством фальсификаций должны прежде всего партии. Для этого у них есть все возможности (прежде всего доступ к протоколам). Насколько я в курсе (хотя бы по прошлым выборам) каких-либо колоссальных нарушений они не обнаружили, хотя было некоторое число мелких нарушений. Даже если "ЕР" накрутила себе 10-15% голосов, картины это существенно не меняет.

ахха, спасибо за пост.

> В частности, данных, позволяющих проанализировать распределения голосов в пользу партий в зависимости от социальных характеристик и т.п.

это я совсем не понял.
социальные хар-ки чего?
выборы у нас анонимные.
населенных пунтков штоле?
но это будет средняя по больнице.

на мой взгляд продуктивнее построить аналогичные графики для всех выборов в Думу/Президенты

Характеристики избирателей (чтобы посчитать корреляции с высказанными политическими предпочтениями). В идеале хотя бы средние по избирательным участкам, этого должно быть достаточно.

Что касается данной зависимости (явки от голосов за основного кандидата от власти), то она как раз регулярно наблюдается на всех недавних выборах, если судить по графикам.

> Таких факторов может быть множество, например, это могут быть различия между сельским и городским населением. Различия в возрастной и половой структуре населения между избирательными участками. И т.п.

какие из этих различий могут объяснить 15% разницу?
половая и возрастная структура? очевидно что нет. разве у нас в каких-то регионах-участках половая-возрастная структура заметно отличается от средней по стране? такое есть только в армии и зоне.

вот более-менее однородная москва
http://oude-rus.livejournal.com/540865.html
Сразу видно, что данные кластеризуются вокруг двух "фокальных точек": явка 50%, голование за ЕР 25% и явка 65%, голование за ЕР 51%.

15% разницу в чём?

Для двух "горбов" в распределении явки вполне достаточно наличия неоднородности в группе, голосующей за "ЕР". Например, первый горб - городское население, второй - сельское, более дисциплинированное. Возрастная структура - легко, если она скоррелирована с каким-либо фактором. Например, старые люди более расположены голосовать за "ЕР". Одновременно более расположены жить в сельской местности. Этого достаточно, чтобы получить положительную зависимость на графике и два "горба".

Весь вопрос упирается в то, значимы ли эти различия практически. Признаюсь, понятия не имею. Предполагаю, что по крайней мере частично. Но чтобы дать определённый ответ, нужно копаться в этой теме более основательно.

а вот сравнение по одному району в 2007 и 2011
http://anderson-mike.livejournal.com/21380.html
в 2007 процент проголосовавших за едро распределен равномерно, а 2011 уже резкие отклонения от среднего

Мне кажется вы здесь не совсем правы.
Давайте, чтобы не говорить о выборах (в этой теме сейчас работает в основном не логика а эмоции и вера) я воспроизведу вашу логику по отношению к тому, что сделал, например, Коперник.

So:___________
Имеются наблюдения о странном видимом движении планет (попятное движение).
Если предположить, что планеты движутся вокруг Солнца и построить, исходя из этого предположения, их видимые траектории, то они совпадают с наблюдаемыми.

Но. Факт совпадения наблюдаемого движения и полученного из гелиоцентрической модели не является доказательством, что планеты обращаются вокруг солнца.

Представим себе, что у нас есть множество возможных альтернативных объяснений видимого движения планет, одинаково успешных (другим вполне успешным объяснением может быть, например, божий промысел заставляющий планеты двигаться так странно петляя). Как мы вообще можем утверждать, что истинным объяснением является первое, а не второе или третье?
Формально - никак.
------------------

Формально построение правильное, но если им пользоваться, то ни одну модель построенную на наблюдаемых фактах нельзя признать истинным объяснением этих фактов.
То есть кроме логики нужны еще:
-- набор вызывающих доверие постулатов. (который у разных людей различен)
-- внелогичный критерий отбрасывания лишних сущностей (бритва Оккама).

И теперь, возвращаясь к выборам. О постулатах и критерии лишних сущностей спорить бессмысленно. Это недоказуемо и неопровергаемо (по крайней мере исходя из данных статистики).
А вот предложенная вами конкурирующая модель (основанная на предположении о зависимости вероятности явки от политических предпочтений) - это очень интересно.
Было бы очень хорошо, если бы кто-нибудь озаботился построить на этом предположении модель и посмотреть на результат. (Вы это сделали только для растущей ветви ЕР)

Пока же я вижу, что есть две модели объясняющие наблюдаемые факты (модель вбросов и ваша модель о разной вероятности явки). И отдать явное предпочтение одной из них я не могу. Мое ИМХО - наблюдаемый результат это суперпозиция обоих факторов. А вот в какой пропорции - дело темное.

" Формально построение правильное, но если им пользоваться, то ни одну модель построенную на наблюдаемых фактах нельзя признать истинным объяснением этих фактов. "

Верно, но к данной аргументации не применимо. Во-первых, исходный (первый) график по научным критериям не является ни теорией, ни моделью. Это просто частный рациональный аргумент (некоторое утверждение, которое пытаются доказыть с помощью факта). Т.е. критерии тестирования научных теорий к нему не применим. А вот обыкновенный учебник эконометрики, который показывает, почему апеллирование к парным регрессиям опасно, вполне. Т.е. моё возражение не сводится просто к тому, что факты сами по себе не доказывают утверждения. Оно также указывает на куда более глубокую проблему в аргументе.

Во-вторых, моя аргументация не настолько невпопад, чтобы быть аналогичной введению сверхъестественных сущностей в оборот. Я предположил вполне правдоподобное объяснение (существование которого следует из указанной логической ошибки индуктивного обобщения).

В-третьих, для доказательства адекватности реальных научных моделей (в социальных науках) вполне допустимо использовать опытные данные. Но там это делается с использованием методологии исследований и как минимум с верификацией моделей фактами, чтобы отсечь другие возможные (разумные) объяснения. Модель Коперника например долгое время не принимали просто потому, что другая модель с таким же или большим успехом объясняла наблюдения. А приняли уже потому, что его модель в конечном итоге оказалась гораздо проще в использовании. В данном случае мы имеем два эквивалентных в эмпирическом смысле описания, о которых нельзя сказать, что второе (моё) вводит какие-то заведомо избыточные и явно излишние допущения.

На тему верификации моделей я писал довольно подробно в другом месте, там же ссылка. Не знаю, читали ли Вы (немного неудобно отсылать к 20 страничному реферату достаточно специфичного характера). Это колоссально большой вопрос и ответить на него исчерпывающе в коротком сообщении будет трудно.

" А вот предложенная вами конкурирующая модель (основанная на предположении о зависимости вероятности явки от политических предпочтений) - это очень интересно. "

Да, Вы верно указали на то, что эта "модель" имеет эмпирические следствия, которые можно подвергнуть дополнительной проверке.

" Было бы очень хорошо, если бы кто-нибудь озаботился построить на этом предположении модель и посмотреть на результат. "

Не очень понимаю. Чтобы проверить следствия из моих утверждений, нужно знать (из реальных данных) действительную склонность голосования сторонников "Единой России" и оппозиционных партий. Подразумевая, конечно, что моя примитивная модель голосования отражает действительность удовлетворительно.

"отдать явное предпочтение одной из них я не могу."

И я тоже. Правда, из этого я заключаю, что данный (первый) график не доказывает фальсификации.

Возможное объяснение 1. Существование корреляции между политическими предпочтениями и вероятностью прийти на выборы и проголосовать. Например, сторонники т.н. оппозиции больше предрасположены не доверять к сложившимся общественным институтам и просто игнорировать выборы.

Это негодное объяснение, т.к. оно требует достаточно компактного проживания сторонников оппозиции/едра.

Возможное объяснение 2. Различия в других характеристиках голосующих популяций. Любое прозвучавшее утверждение о фальсификациях исходит из неявного предположения, что единственное различие между популяцией, голосующей за "ЕР", и популяцией, голосующей за оппозицию, заключается в только в размере популяции. Скажем, за "ЕР" в принципе могут проголосовать 30 млн. чел, за "КПРФ" - 15 млн, в остальном никаких отличий. На самом деле это совершенно не обязательно так и даже совсем не так (другой вопрос - в мере влияний этих различий).

Это также негодное объяснение, т.к. оно требует достаточно компактного проживания сторонников оппозиции/едра.

Единственное годное объяснение это некая группа, обладает следующими свойствами
1. сравнительно компактным проживанием
2. высокой избирательной активностью
3. сторонники едра

Например, афроамериканцы живут достаточно компактно, ходят на выборы чаще чем белые и в основном голосуют за Обаму.
В таком случае связь между % явки и голосами по графству за Обаму объясняется тем что есть связь между % явки и % афроамериканского населения и есть связь между % голосов за Обаму и % афроамериканского населения

"оно требует достаточно компактного проживания сторонников оппозиции/едра."

Нет, для объяснения 1 подобные предположения совершенно не требуются и я из них не исходил.

Для объяснения 2 я не очень понимаю, зачем это может понадобиться. Достаточно того, чтобы избирательные участки систематически отличались по характеристикам, одновременно скоррелированными с полит. предпочтениями.

Нематематическая погрешность

User awas1952 referenced to your post from Нематематическая погрешность saying: [...] Полагаю, статьи ""Доказательства" вбросов на выборах [...]

Единственное, чему я не нахожу пока альтернативных гипотез = это локальные пики на кратных пяти показателях явки.

Но согласен, возможное количество приписанных голосов, обьясняющее эти пики = фактически, ничтожно.

Однако я не утверждаю, что фальсификаций вовсе нет. Просто связь между абсолютным количеством голосов и явкой не имеет однозначно определяемого отношения к возможным фальсификациям. Вполне можно иметь и фальсификации, и обозначенный у меня эффект (с разным влиянием на наблюдаемые данные)

все правильно.

корреляция между явкой и вилкой рейтинга между лидером и вторым - известный медицинский факт. я достаточно быстро нагуглил всяких англоязычных трудов на тему: http://svshift.livejournal.com/108187.html

Да, правда, чтобы разобраться в этой теме, необходимо серьёзно копаться в социологической и подобной литературе.

Приятно, что аналогичные по сути замечания сформулированы независимо.

очень простой дополнительный фактор, причем чисто практического свойства, который позовляет отсечь все ваши теории

берем два близлижайщих района Москвы, находящихся в разных префектурах, а именно района Марьина Роща с 27% голосованием за ЕР, и район Мещанский с 53% голосами за ЕР. Граница этих районов случайна, это совершенно однородные между собой районы Москвы с одинаковой численностью избирателей, и такое двухкратное различие в итогах голосования можно объяснить только фальсификациями, налаженными в Центральном округе (Мещанский район) и почему то сорванным в Северо-восточном округе (Марьина роща), где все районы СВАО показали низкие проценты ЕР

а теперь явка, в Марьиной роще она 50%, а в Мещанском 65%, то есть "положенные" 15% вброса, ч.т.д.

Ну почему только фальсификацией? При достаточно большом числе участков вполне могут быть ситуации, когда на близко расположенных участках результаты заметно различаются просто в силу случайных факторов. Разброс той же явки достаточно велик. Поэтому в данном случае и вообще неразумно полагаться на частные случаи, следует брать данные по всем избирательным участкам и изучать возможные особенности и усреднённые зависимости в них.

Т.о. не объяснить пики против "красивых процентов".

Конечно, но эта задача и не ставилась.

Замечание "статистикам"

Все уважаемые "статистики", как доказывающие своими диаграммами манипуляции, так и критикующие эти выводы, рассматривают один вариант перекоса выборов - вброс. Хотя есть достаточно много информации, что применялся (и не только на последних выборах) еще более крутой метод - подмена протоколов. Во втором варианте можно писать произвольную явку, так что зависимость от %явки поплывет.

Наиболее интересным представляется разброс процента Едра от 27 на севере Москвы до 60 на Арбате и разница вдвое на некоторых соседних участках в разных округах. Другого объяснения, кроме активности различных избирательных комиссий, не видно.

(Deleted comment)
(Deleted comment)
Не уверен, что там 25% проголосовавших, но что касается Чечни и т.п., очевидно, что считать для них все голоса вброшенными и отсекать 100% пик неправильно. Поддержка "ЕР" там по крайней мере не должна значительно отличаться от средней.

?

Log in

No account? Create an account