Разобрался я со статистикой ежедневной смертности на сайте стопкоронавирус.
Оказалось, что на сайте правительства есть зеркало с файлами и 17 ноября там нашлось.
Общие выводы:
1. Сами ежедневные цифры смертности по Москве и Санкт-Петербургу не достоверны
2. Однако динамика изменений скорее всего достоверна и поэтому данные сайта можно использовать для понимания общей картины по стране или региону
Пояснения:
1. Питерские понедельники
Подтянул данные с 30 июля (это много времени занимает). Сразу заметно, что во вторник всегда больше смертность чем в понедельник. По всей видимости в Петербурге не смогли наладить выход на работу ответственных лиц в воскресенье, чтобы в понедельник к 10 утра было все посчитано для отчета правительства. Данные доходили кое-как весь день и в итоге увеличивали статистику вторника.
В итоге 31 августа было принято решение ставить 0 по смертности в Петербурге в понедельник. Эту цифру особо никто не смотрит. Все умершие в воскресенье записывались на вторник. Иногда проскакивали не нули, но не часто.
Так было до 23 ноября, когда видимо стало понятно, что на девятом месяце эпидемии показывать отсутствие построенного процесса в Северной столице не есть хорошо. И тут кто-то гениальный сказал - ставьте по Мособласти! (в Петербурге в любом случае умирает всегда больше чем в МО). И провалы понедельника стали падать не в 0, а в уровень МО (где вот как-то могут собирать статистику и в воскресенье).
На прошлой неделе видимо личный состав выгнали работать в выходные для обеспечения общения Путина с народом, поэтому мы видим нормальную отчетность в воскресенье. Но 18 декабря все уже расслабились (отгул что-ли дали) и опять МО. Посмотрим, что будет завтра.
2. Московские полочки
Это известная летняя история, но она в некотором роде и сейчас повторяется. В книженции How to measure anything есть история о профессоре, который легко смог отличить запись 100 реальных результатов подбрасываний монеты, от 100 придуманных студентами результатов. Разница в длинных сериях повторов. Здравый смысл не обученного человека не понимает, в чем там дело и это заметно.
Так вот в Москве начиная с 30 июля и до 7 сентября (40 дней подряд) смертность была равна одному из значений из множества {10,11,12,13,14} и при этом повторов не было.
Если предположить, что каждый день выпадает случайным образом любое из этих чисел, то вероятность такого события равна (4/5)
40 = 0.00013292279 те около одной сотой процента.
Говоря простым языком это чудо и так не бывает. Это значит, что значения кто-то придумывал и этот кто-то не изучал ТВ в университете - аналогично студентам из книжки.
Сейчас в Москве новая полка с 15 примерно ноября со множеством {71,72,73,74,75,76,77} на 35 дней
те вероятность (6/7)
35 = 0.00453797775. Тоже чудо, пусть и в 40 раз более вероятное.
3. Средние кривые
Однако, если тупо усреднить значения (я взял за неделю), то и СПб и Москва начинают выглядеть разумно. Летняя стабильность, начало холодов и учебного процесса, резкий рост и стабилизация в Москве видны отчетливо. Поэтому для бытовых решений типа ехать/не ехать этот сайт как-то можно использовать. Правда вот графиков он не рисует нужных, к сожалению.