Нужен парсер, который превращает экселевские таблицы с судебной статистикой в структурированные данные
Принимаем Pull-реквесты. Вознаграждение за труд обсуждаемо:)
Задача: агрегировать данные по формам судебной статотчетности из российских районных судов и сделать их пригодными для последующего анализа.
- Мы собрали всю доступную на данный момент статистику о работе районных судов с 2014 по первое полугодие 2016 года. Это около 3,3 Гб архивов.
- Для любой формы (например, № 1 “Уголовные дела в первой инстанции”) необходимо получить данные по региону или по всем доступным статотчетом данной формы за различные периоды отчетности (Например, Форма № 1 по Ивановской области за 2015 г. это 22 файла XLS для анализа)
- В отчетах есть разделы, их не обязательно связывать и можно рассматривать как отдельные датасеты
- Хорошо, если их можно будет получить в виде JSON или CSV файлов или в виде базы данных
- Судебная статистика районного суда - это первичная, неагрегированная информация о результатах работы суда с тысячами показателей. Самих судов 2198 штук в 85 регионах.
- Судебный департамент отвечает за судстат в России, но публикует только сводные данные по России и регионам. С криминальной статистикой МВД тоже все не очень хорошо.
- На сайтах судов публикуется пока десятая доля, но это уже 12 000 отчетов. И мы планируем получить еще больше отчетов в этом году.
- Совсем скоро опубликуем все собранные нами статданные - это около 3ГБ архив отчетов из 50 регионов.
Извлеченные структурированные данные данные могут стать основой для исследовательских и журналистских проектов, а также для анализа судебной практики с любой целью.
Каждый отчет по одним только уголовным делам содержит показатели, отвечающие на тысячи вопросов, например:
- Сколько граждан осудили в суде за грабёж (или другой статье) в 2015?
- Сколько человек в год оправдывают и по каким статьям?
- Какие меры наказания чаще применяются в суде?
- Как часто деятельное раскаяние становится причиной прекращения уголовного дела?
- Сколько преступлений совершили граждане в состоянии алкогольного, а сколько - в состоянии наркотического опьянения?
- Часто ли суд отправляет подсудимого в СИЗО? Эти показатели можно сравнивать по отдельным судам, по регионам и во временном разрезе. Можно сделать карту (давным давно в далёкой галактике был проект Атлас правосудия - можно сделать не хуже).
- Данные не машиночитаемы. Их надо парсить и структурировать. Все отчеты - экселевские таблицы, предназначенные для печати.
- Данных мало и они плохо публикуюся судами. В прошлом году мы проверяли и узнали , что опубликовано 10% судебной статистики (12 из 3. 120 тысяч отчетов!)
- В ходе аудита мы не только проверили, но и добились публикации судами дополнительных 4 тысяч отчетов. В этом году будем добиваться публикации новых отчетов. Есть регионы, в которых отчетность публикуется почти полностью: Забайкальский край, Ивановская, Костромская область, Мордовия (рейтинг есть в отчёте)
- В рейтинге мы собрали ссылки на статотчеты, их можно выгружать в CSV и JSON.
- Микко Питкянен сделал парсер на основе макроса в Эксель (VBA). Он справляется с анализом отдельных файлов формы №1 (уголовные дела в первой инстанции), но у него пока плохо получается обрабатывать много отчётов одновременно.
Проектный центр "Инфометр". Занимаемся информационной открытостью и консалтингом госсектора в сети. Развиваем открытые данные. Считаем, что статистика судов в формате ОД поможет разобраться в работе судебной системы гражданам, органам власти и бизнесу. Кроме того, ее публикация обязательна по закону.
Будем рады предложениям о партнерстве и совместным аналитическим проектам: [email protected]