Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В последнее время я много рассказываю про качество данных и мои коллеги выступают с этой же темой. На дне открытых данных я модерировал секцию посвященную качеству данных, но там всё было больше от кейсов.

С чего начинать погружение в контроль качества данных и какие материалы полезны?
Вот подборка ссылок которые помогут быть в курсе этой темы:
1. С DAMA-DNBOK второй редакции [1] - Data Management Body of Knowledge (DAMA-DMBOK2) представлят собой аналог PMBOK для данных и уже скоро по нему будут учить, сдавать экзамены и не только.
2. ГОСТ Р 57773-2017 (ИСО 19157:2013) Пространственные данные. Качество данных [2]
3. ISO 8000-8:2015 Data quality -- Part 8: Information and data quality: Concepts and measuring [3]
4. Стандарт для data.gov.sg , портала данных Сингапура [4]
5. Bad data guide [5] кропотливая подборка практических примеров случаев плохих данных

Качество государственных данных, в принципе, в России очень низкое. За редким исключением, данные неактуальны, плохо обновляются, без метаданных, с пропусками в ключевой информации и не только.

Ссылки:
[1] https://www.oreilly.com/library/view/dama-dmbok-data-management/9781634622479/
[2] http://docs.cntd.ru/document/1200157078
[3] https://www.iso.org/standard/60805.html
[4] https://github.com/datagovsg/data-quality
[5] https://github.com/Quartz/bad-data-guide

#opendata #baddata #dataquality
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.

У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»

Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".

Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.

Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.

Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.

Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.

Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.

Не любят людей в Рослесхозе, ох как не любят.

P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц

Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest


#opendata #datasets #forestry #russia #closeddata #baddata