Хороший обзор прослеживаемости данных (data lineage) [1] от Borja Vazquez из Monzo Bank
Прослеживаемость данных - это важная тема, актуальная особенно в корпоративной развитой аналитике и в научной среде, где важна достоверность результатов, или, хотя бы понимаемые уровни отклонения, и важна воспроизводимость результатов. Воспроизводимость результатов особенно актуальна при публикации научных работ, связанных с ними данных и тд.
Автор делает акцент на картографии данных в разных разрезах - пользовательского использования, качества данных, производительности и тд. в разных формах картографии данных, в основном вокруг DAG (directed acyclic graph) и потоков обработки данных.
Текст короткий, постановка проблем и подходов вполне понятные.
Когда-то я также активно занимался картированием данных, в основном для задач, обнаружения данных (data discovery).
Это другой подход, его задача идентифицировать основные источники данных в целях:
а) Внутреннего аудита
б) Создания дата-продукта
В итоге вместо того чтобы многие карты данных мы собрали общедоступные источники данных в datacatalogs.ru [2]
Ключевая разница между картографией данных на уровне прослеживаемости и картами данных для их обнаружения - в зрелости объектов анализа. В корпоративном мире, как правило, есть возможность влиять на потоки данных, источники данных, процедуры и тд. Ключевой вопрос: "Где проблемы? Как организовать процесс чтобы решать проблемы оперативно?"
В работе с открытыми источниками ключевые вопросы: "Как найти источник? Как получить к нему доступы?"
Ссылки:
[1] https://medium.com/data-monzo/the-many-layers-of-data-lineage-2eb898709ad3
[2] https://datacatalogs.ru
#data #dataquality #datamaps #opendata #datalineage
Прослеживаемость данных - это важная тема, актуальная особенно в корпоративной развитой аналитике и в научной среде, где важна достоверность результатов, или, хотя бы понимаемые уровни отклонения, и важна воспроизводимость результатов. Воспроизводимость результатов особенно актуальна при публикации научных работ, связанных с ними данных и тд.
Автор делает акцент на картографии данных в разных разрезах - пользовательского использования, качества данных, производительности и тд. в разных формах картографии данных, в основном вокруг DAG (directed acyclic graph) и потоков обработки данных.
Текст короткий, постановка проблем и подходов вполне понятные.
Когда-то я также активно занимался картированием данных, в основном для задач, обнаружения данных (data discovery).
Это другой подход, его задача идентифицировать основные источники данных в целях:
а) Внутреннего аудита
б) Создания дата-продукта
В итоге вместо того чтобы многие карты данных мы собрали общедоступные источники данных в datacatalogs.ru [2]
Ключевая разница между картографией данных на уровне прослеживаемости и картами данных для их обнаружения - в зрелости объектов анализа. В корпоративном мире, как правило, есть возможность влиять на потоки данных, источники данных, процедуры и тд. Ключевой вопрос: "Где проблемы? Как организовать процесс чтобы решать проблемы оперативно?"
В работе с открытыми источниками ключевые вопросы: "Как найти источник? Как получить к нему доступы?"
Ссылки:
[1] https://medium.com/data-monzo/the-many-layers-of-data-lineage-2eb898709ad3
[2] https://datacatalogs.ru
#data #dataquality #datamaps #opendata #datalineage
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.
Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].
Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система
Карты в форматах Xmind, PNG, PDF и JSON.
По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.
Ссылки:
[1] https://github.com/infoculture/ru-datamaps
#opendata #opensource #datamaps #datadiscovery
Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].
Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система
Карты в форматах Xmind, PNG, PDF и JSON.
По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.
Ссылки:
[1] https://github.com/infoculture/ru-datamaps
#opendata #opensource #datamaps #datadiscovery
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.
А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.
Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #infoculture #data #russia #datamaps
А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.
Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #infoculture #data #russia #datamaps