jemmybutton.livejournal.com/1359.html
Гипотеза о причинах возникновения пиков на "красивых" числах с графиками по произвольному массиву случайных чисел. Идея: общие делители.
Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80
это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x — от одного до 800 (чуть больше среднего участка), y — произвольная доля от x (округленное до целого).
> sample(800, 1000000, replace = TRUE) -> x$x> sample(10000, 100000, replace = TRUE)/10000 -> x$y> x$y <- round(x$x*x$y)> hist(x$y/x$x, breaks = 200)
если убрать «участки» с x<100 пики уменьшаются, но не пропадают.
если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)
так-то
UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение явившихся на выборы людей:
вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):
далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:
404 Not Found [not image]
по-мойму так красота.
UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:
после:
более или менее очевидную фигню мне видно только на 75 и 85.
Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не размер участка, а количество участков относительно их размера.
А это я облажался и другую картинку повесил, но она тоже не интересная, это, похоже, артефакт, вызванный тем, что выдается на участок круглое число бюллетеней.
Количество участков от (голосов за партию / число избирательных бюллетеней, полученных участковой избирательной комиссией). Если исключить участки <100 чел., картина почти не меняется, если <500, пики на каждом проценте остаются.