Российская база бухгалтерской отчетности
Что в данных: финансовая отчетность компаний и географические координаты
В датасете собраны данные из финансовых отчетов всех действующих компаний России за 2011-2024 годы. Доступны сведения не только о тех компаниях, которые сдали отчетность, но и о тех, которые должны были сделать это, но отчетность не разметили.
Набор данных был подготовлен Институтом проблем правоприменения (ИПП) при Европейском университете в Санкт-Петербурге. Первоисточник доступен в репозитории Github. Также данные опубликованы на Hugging Face и Zenodo в формате Apache Parquet с разбивкой по годам. Это помогает выполнять запросы только по интересующим переменным. В сопроводительной статье можно подробнее прочитать о валидации данных из первоисточника. Более подробное описание можно прочитать в статье на arhiv.org.
Единица наблюдения — отдельная компания, предоставившая (или обязанная предоставить) финансовую отчетность за конкретный год. Данные включают такие атрибуты, как:
- идентификационный номер налогоплательщика (ИНН) и другие коды компании;
- финансовые показатели по формам бухгалтерской отчетности (баланс, отчет о финансовых результатах, отчет об изменении капитала, отчет о движении денежных средств, отчет о целевом использовании средств) ;
- год составления отчета;
- отметки о статусе компании (активность, сдача отчетности по упрощенной форме и т.п.);
- геграфические характеристики, включая регион и координаты юридического адреса компании;
- признаки, полученные в ходе гармонизации и импутации пропущенных данных.
Источник данных — официальная отчетность, собранная Федеральной службой государственной статистики (Росстат) и Федеральной налоговой службой (ФНС). База восстанавливает максимально возможный объем данных за счет непроникающей импутации, артикуляции отчетных форм и приведения показателей к единому стандарту.
Набор доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»), XLSX (только в разбивке по регионам и годам или отраслям и годам) и PARQUET. Также данные можно скачать данные в формате XLSX только для отдельных регионов или отраслей. Коды и расшифровка строк финансовой отчетности доступны в отдельном файле financial_codes.xlsx, который публикуется вместе с набором данных. Набор данных охватывает 2011–2024 годы и содержит 60 127 983 наблюдения по 214 атрибутам.
Скачать данные по отраслям и регионам
В архиве c данными в формате CSV выгрузки разбиты по годам, также доступны аналогичные выгрузки в формате PARQUET. В архиве с данными в формате XLSX выгрузки разбиты по регионам и годам или отраслям и годам.
Также в отдельной таблице можно найти ссылки на архивы с данными в формате XLSX по отдельным отраслям или регионам.
Скачать данные по годам
Скачать данные в формате CSV и PARQUET за отдельные годы можно по ссылкам:
- 2011 год (CSV, PARQUET)
- 2012 год (CSV, PARQUET)
- 2013 год (CSV, PARQUET)
- 2014 год (CSV, PARQUET)
- 2015 год (CSV, PARQUET)
- 2016 год (CSV, PARQUET)
- 2017 год (CSV, PARQUET)
- 2018 год (CSV, PARQUET)
- 2019 год (CSV, PARQUET)
- 2020 год (CSV, PARQUET)
- 2021 год (CSV, PARQUET)
- 2022 год (CSV, PARQUET)
- 2023 год (CSV, PARQUET)
- 2024 год (CSV, PARQUET)
Если у вас есть вопросы по датасету, задавайте их в нашем телеграм-чате.
[#отчетность] [#компании][#выручка][#прибыль]
Показатели
- Бухгалтерский баланс
- Отчет о финансовых результатах
- Отчет об изменении капитала
- Отчет о движении денежных средств
- Отчет о целевом использовании средств
