Как искать открытые государственные данные. Пошаговая инструкция «Если быть точным»

Разбираемся, как не утонуть в недрах Росстата
Российские ведомства собирают и публикуют множество данных.  Благодаря этой статистике исследователи, журналисты и все желающие могут изучать, как обстоят дела в разных сферах жизни. Но найти ее не всегда просто. Главные статистические платформы плохо структурированы и не очень дружелюбны к пользователю, часть данных разбросана по ведомственным сайтам, а часть можно получить только по запросу. Рассказываем, как в этой путанице найти нужную статистику.
> > > >

Описанный алгоритм не обязательно выполнять в строгой последовательности. Шаги можно менять местами или пропускать — иногда правильный запрос в поисковике даст больше пользы, чем несколько часов на сайте Росстата. Мы расположили этапы от самых простых и эффективных к самым неочевидным, но невозможно сказать заранее, что окажется полезным именно в вашем случае.

Шаг 1. Ищем на ЕМИСС

ЕМИСС (расшифровывается как Единая межведомственная информационно-статистическая система) — это платформа, на которой ведомства размещают показатели, собираемые ими в рамках официального статистического учета. Возможно, мы не найдем нужные нам данные, но с большой долей вероятности найдем подсказки, где их искать.

Искать данные можно либо по ведомству, либо по названию через внутренний поиск.

Важно: поиск работает только по точным вхождениям. Например, по запросу «аборт» результатов не будет, запрос «прерывание беременности» покажет два датасета, а «прерывания беременности» – три.

У сайта ЕМИСС не самый дружелюбный интерфейс — после каждого обновления страницы нужно заново настраивать отображение данных вручную.

Когда вы открываете показатель, он может выглядеть так:

Чтобы отобразить все данные, нажмите кнопку «Настройки» и перетащите все фильтры в поля «Строки» и «Столбцы».

После этого отфильтруйте значения. Обычно в фильтрах можно выбрать регион (один, несколько или все сразу) и год, для многих показателей — пол, тип местности (сельская или городская), а также «технические» разрезы — «период», «единица», «форма собственности». Лучше выбирать во всех фильтрах все значения (в случае объемных датасетов, например, Численность постоянного населения - женщин по возрасту на 1 января, это может  нагрузить оперативную память вашего компьютера, поскольку все выполняется на стороне клиента, то есть вашей). По крайней мере, выбирайте все значения в «технических» фильтрах, иначе вы рискуете получить неполные данные.

Например, в фильтре «период», может встречаться разное написание одного и того же значения, которые использовались в разные годы: например, «на 1 января», «значение показателя за год», «ежегодно». Вы получите данные за весь доступный период, только выбрав все три значения.

Важно: ЕМИСС открывается только с российских IP.

Шаг 2. Ищем на сайте Росстата

Если найти нужные данные на ЕМИСС не удалось, они могут быть на сайте Росстата. Датасеты на сайте частично пересекаются с ЕМИСС, но по многим темам они подробнее, а некоторые есть только здесь — например, данные переписей населения или абсолютные показатели по причинам смерти (последние два года эти данные не обновляются).

В первую очередь имеет смысл проверить раздел «официальная статистика». В нем в основном лежат датасеты с «базовыми» показателями по демографии, здравоохранении, образовании, экономике.

Кроме того, у Росстата есть разделы:

  • с данными выборочных обследований. Правда, часть обследований не публикуется, а часть лежит в других местах. Например, материалы обследования по использованию информационных технологий (ИКТ), можно найти только через ссылку в подразделе «Официальной статистики»;

  • витрина данных, которая работает на домене gks.ru (старом домене Росстата, периодически недоступен) и иногда содержит более мелкие разрезы, чем основной раздел (например, данные по средней номинальной зарплате содержат разрезы по ОКВЭД (категории деятельности) и ОКФС (форме собственности предприятия);

  • с оперативными справками;

  • с электронными изданиями, статистическими сборниками и бюллетенями. В них собраны тематические показатели за несколько лет. Обычно сборники в основном повторяют то, что уже опубликовано в «официальной статистике» и на ЕМИСС. Но часто значения показателей даны за более долгий период — с 2000-х или 1990-х. Кроме того,  иногда в сборниках встречаются данные, которых в свободном доступе больше нигде нет. Например, в сборнике «Социальное положение и уровень жизни» есть данные о количестве заключенных на конец года в разрезах по возрасту, полу и типу исправительного учреждения (подобных данных не публиковала даже ФСИН).

Сайт Росстата плохо структурирован и понять, где что лежит, довольно сложно — придется потратить время на то, чтобы просмотреть разные разделы. Внутренний поиск работает плохо, эффективнее искать через поисковые системы, используя уточняющие операторы поиска по сайту и типу документа (описание операторов для Яндекса и Гугла).

Предположим, мы хотим узнать, сколько в России детей с расстройствами аутистического спектра. Поиск на ЕМИСС по словам «РАС», «аутистический», «аутизм» не дал результата.

Поиск по ключевым словам на сайте Росстата тоже не дал результатов. В этом случае придется вручную проверять все датасеты, которые могут иметь отношение к теме. В нашем случае мы можем предположить, что нужная нам информация может быть в разделах по здравоохранению и образованию.

Данные о детях с РАС нашлись в разделе «Образование». Прямо в разделе выложены данные статформ 85-K «Дошкольное образование по Российской Федерации и субъектам Российской Федерации (итоги статнаблюдения по форме № 85-К). Чтобы найти форму, а в ней — нужный показатель, придется открывать и проверять вручную все подходящие формы. 

А по ссылке «Среднее профессиональное и общее образование», мы попадем на сайт Минпросвещения, где лежат данные форм ОО-1 «Сведения об организации, осуществляющей образовательную деятельность по образовательным программам начального общего, основного общего, среднего общего образования».

И там, и там есть данные о детях с РАС – количество групп, количество мест и количество детей, в разрезах по регионам, возрастам, гражданству, имеющейся инвалидности. Но чтобы их обнаружить, нужно открыть форму и искать нужный показатель сначала через поиск по таблице, а если ничего не нашлось, то вручную, просматривая все разделы формы.

Шаг 3. Проверяем сайты профильных ведомств

Многие ведомства сами публикуют собранные данные. Иногда этих данных нет ни на ЕМИСС, ни на Росстате. Иногда на сайте ведомства их просто проще найти. А иногда здесь лежат не отдельные показатели, а формы статнаблюдения целиком (то есть набор данных на определенную тему в том виде, в каком его заполняют учреждения — например, все данные о работе школ).

Сначала нужно понять, какое ведомство собирает данные по интересующей нас проблеме. Это не всегда очевидно. Например, данные о заболеваемости хроническими неинфекционными заболеваниями собирает Минздрав, но о заболеваемости инфекционными и паразитарными заболеваниями — Роспотребнадзор.

В некоторых случаях найти ответственного за сбор конкретных данных можно в паспорте показателя на ЕМИСС или в плане статистических работ. 

Иногда ответственное ведомство придется искать просто через поиск. Если повезет, сразу найдется ссылка на сайт нужного ведомства. В других случаях придется смотреть, на кого ссылаются другие исследователи и журналисты, когда приводят статистику по теме. 

Например, мы хотим узнать, сколько людей в 2023-м году получили инвалидность из-за заболеваний глаз в разрезе регионов. На ЕМИСС есть нужный показатель, но данные там только за 2017 год. Но во вкладке «паспорт показателя» указано, что данные собирает Минтруд.

После этого переходим на сайт ответственного за сбор показателя ведомства.Искать нужно в разделах «Статистика», «Деятельность», «Документы», «Банк документов» и подобных. Нужные нам данные об инвалидности нашлись в разделе «Открытые данные» на сайте Минтруда.

Шаг 4. Ищем образцы статистических форм

Если ничего найти не удалось, имеет смысл проверить, какие данные на интересующую тему собираются в принципе — тогда их можно попробовать запросить у ведомства. 

Ведомства собирают данные в формате утвержденных Росстатом статистических форм. Шаблоны таких форм (без данных) могут быть полезны для того, чтобы понять, какие данные собираются в принципе, узнать точное название показателя (это облегчит поиск) или понять, что можно запросить у ведомства.

Например, датасет Росстата по абортам содержит разрезы по регионам, возрастам, форме собственности клиники. А форма 1-Здрав содержит разрезы по сроку беременности, виду аборта (самопроизвольный, медицинский, медикаментозный), наличию ВИЧ-статуса у беременной.

Найти шаблоны можно:

  • через паспорт показателя на ЕМИСС (в блоке «Источники и способ формирования показателя» может быть активная ссылка, либо в других блоках будет указано название формы)

  • в альбоме форм федерального статистического наблюдения;

  • на сайтах-агрегаторах законодательных актов (Гарант, Консультант, Судакт и другие);

  • через поисковые системы, простым запросом или с помощью уточняющих операторов по сайтам, где они могут быть (ЕМИСС, Росстат, агрегаторы).

Лучше искать формы в текстовых форматах (doc, docx, pdf), обычно в таких файлах сохраняют рекомендации к заполнению.

Важно обратить внимание на дату утверждения формы. Статформы периодически меняют, иногда значительно, поэтому важно найти действующую. Актуальность удобно проверять на сайтах-агрегаторах законодательных актов.

Шаг 5. Пишем запрос

В формах можно узнать, как именно называются интересующие нас показатели, и какие вообще данные собирают. Эта информация пригодится, чтобы составить запрос с просьбой предоставить данные. 

Российское законодательство гарантирует доступность информации, которая собирается в рамках официального статистического учета. Это прямо указано в профильном законе (ФЗ-282), а также в законах «Об обеспечении доступа
 к информации о деятельности государственных органов и органов местного самоуправления» (8-ФЗ), «Об информации, информационных технологиях и о защите информации» (149-ФЗ) и 29 статье Конституции. 

На титульном листе формы указано, кто собирает данные. В это ведомство и нужно отправлять запрос. Помимо самого ведомства, имеет смысл отправить запрос и в Росстат. 

Запрос можно писать и от организации, и от себя лично. Обычно на сайте ведомства, на страницах контактов или пресс-службы указано на чье имя и в какой отдел отправлять запрос. Если этой информации нет, можно отправить на имя руководителя департамента или руководителя ведомства. Отправлять нужно на электронную почту или обычной бумажной почтой. Формами обратной связи на сайте лучше не пользоваться (часто их не читают).

В запросе лучше прямо указать название интересующего показателя и название формы, по которой он должен собираться.

Запрос можно отправить, даже если вы не нашли форму, ее нет в свободном доступе или нет вообще. Но успех зависит от ведомства и от того, в какой форме хранятся данные. Например, у Росстата есть датасет «Число умерших по причинам смерти» с разбивкой по МКБ-10. если вы запросите, данные по смертности от конкретного заболевания в Москве, скорее всего, Росстат вам их пришлет. Но если вы попросите те же данные у ЗАГСа, то получите отписку.

Шаг 6. Ищем в альтернативных источниках

Выше мы перечислили все основные источники открытых государственных данных. Но иногда статистику публикуют и в менее очевидных местах — научных работах, годовых отчетах. Придумать алгоритм поиска в таких источниках не получится, искать придется, руководствуясь логикой и интуицией. Зато можно найти показатели, которых больше вообще нигде нет. 

Годовые отчеты и доклады

Каждое ведомство обязано отчитываться об итогах своей деятельности за год и предоставлять публичный доклад.

Некоторые ведомства публикуют содержательные доклады, с данными и таблицами. Например, так делают Роспотребнадзор, МЧС, МВД. Ищем их в разделах «Деятельность».

Международная статистика

Некоторые данные Россия передает международным организациям. Часть из них можно найти и у Росстата или других ведомств, но некоторые данные есть только в международной статистике. 

Например, у ВОЗ есть статистика смертности по очень подробным причинам смерти. А Управление ООН по наркотикам и преступности выкладывает данные о преступности — в том числе по разрезам, недоступным в российской статистике (например, кем приходился убийца жертве — незнакомым человеком, членом семьи, партнером).

Сборники ведомственной статистики и НИИ

Почти у каждого министерства есть подведомственные научные институты и центры, комиссии, учебные заведения. Например, у Роспотребнадзора 26 научных институтов и центров, у Минздрава — 43. Некоторые из них собирают данные по профилю и выпускают тематические сборники.

Перечня подобных изданий нет — нужно искать ведомственные институты и изучать, что они публикуют.

Вот несколько примеров:

ЦНИИОИЗ Минздрава ежегодно выпускает сборники по заболеваемости и медицинской инфраструктуре. До 2018 года Минздрав выкладывал их на своем сайте, сейчас предоставляет только специалистам. Иногда их публикуют региональные ведомства. Например, сборник за 2023 опубликовал Новосибирский институт гигиены.

Научные журналы

Некоторые ведомственные НИИ и ВУЗы выпускают собственные научные журналы. В публикациях этих изданий тоже могут быть ценные данные. Так, НИИ ФСИН выпускает ежеквартальный сборник трудов и ежегодник материалов конференции «Пенитенциарная медицина». Кроме того, научные сотрудники ведомственных НИИ публикуются и в других изданиях.

Это самый трудоемкий и малоэффективный способ поиска, но в случае таких «закрытых» ведомств, как ФСИН, он может быть оправдан — это один из немногих способов получить хоть какую-то статистику. 

Например, ФСИН не публикует данные о количестве суицидов в исправительных учреждениях, но в научных публикациях такие данные есть.

Найденные данные важно правильно интерпретировать. Для этого нужно в том числе понять, кто и с какой целью их собирает — от этого зависит, о чем именно данные говорят. Например, на ЕМИСС можно найти показатель «Въезд иностранных граждан в РФ». Его легко интерпретировать как иммиграцию, хотя на самом деле в эти данные попадают все иностранцы, которые пересекли границу с любой целью — туризм, учеба, работа, транзит. Подробнее о том, как интерпретировать собранные данные, мы расскажем в следующей инструкции. 

Автор: Борис Ги

Материал был полезен?

«Если быть точным» — это данные с человеческим лицом.
Поддержите нас, чтобы мы могли и дальше помогать решать социальные проблемы.
Мы всегда рады вашим письмам
Присылайте ваши вопросы, отклики и предложения в телеграм-бот @tochnost_bot
Наши соцсети