Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Хороший обзор прослеживаемости данных (data lineage) [1] от Borja Vazquez из Monzo Bank

Прослеживаемость данных - это важная тема, актуальная особенно в корпоративной развитой аналитике и в научной среде, где важна достоверность результатов, или, хотя бы понимаемые уровни отклонения, и важна воспроизводимость результатов. Воспроизводимость результатов особенно актуальна при публикации научных работ, связанных с ними данных и тд.

Автор делает акцент на картографии данных в разных разрезах - пользовательского использования, качества данных, производительности и тд. в разных формах картографии данных, в основном вокруг DAG (directed acyclic graph) и потоков обработки данных.

Текст короткий, постановка проблем и подходов вполне понятные.

Когда-то я также активно занимался картированием данных, в основном для задач, обнаружения данных (data discovery).

Это другой подход, его задача идентифицировать основные источники данных в целях:
а) Внутреннего аудита
б) Создания дата-продукта

В итоге вместо того чтобы многие карты данных мы собрали общедоступные источники данных в datacatalogs.ru [2]

Ключевая разница между картографией данных на уровне прослеживаемости и картами данных для их обнаружения - в зрелости объектов анализа. В корпоративном мире, как правило, есть возможность влиять на потоки данных, источники данных, процедуры и тд. Ключевой вопрос: "Где проблемы? Как организовать процесс чтобы решать проблемы оперативно?"

В работе с открытыми источниками ключевые вопросы: "Как найти источник? Как получить к нему доступы?"

Ссылки:
[1] https://medium.com/data-monzo/the-many-layers-of-data-lineage-2eb898709ad3
[2] https://datacatalogs.ru

#data #dataquality #datamaps #opendata #datalineage
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.

Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].

Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система

Карты в форматах Xmind, PNG, PDF и JSON.

По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.

Ссылки:
[1] https://github.com/infoculture/ru-datamaps

#opendata #opensource #datamaps #datadiscovery
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps