Ivan Begtin
8.06K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто ищет какие новые/старые продукты по работе с данными потестить и посмотреть рекомендую победителей Data Management Insight Award [1] рейтинг продуктов где встречаются и те продукты которые, я, к примеру, не знал.

Там же до 8 октября можно проголосовать за продукты 2019 года [2] и к 6 декабря будет известен продукт.
Кстати, сами рейтинги - это хороший продукт консалтинговой компании A-Team Insight. Потому что чтобы проголосовать надо заполнить на себя анкету и вообще много чего о себе сообщить. Какие молодцы! Надо брать с них пример.

Ссылки:
[1] https://a-teaminsight.com/awards/data-management-insight-awards/
[2] https://a-teaminsight.com/awards/data-management-insight-awards/?page=vote_now

#data #datamanagement
Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store

Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.

- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.

- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию

- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных

- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.

Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c

#opendata #data #datalakes #datamanagement #datagovernance
О качестве данных и контроле качества:

Хороший обзор стандартов, подходов и инструментов работы с качеством данных в блоге DataInvestor (англ.) [1] в том числе с указанием стандартов таких как Data Quality Assessment Framework (DQAF) [2] используемого в Международном валютном фонде для анализа данных, и процессов их создания, от предоставляющих данные стран.

А также:
- Раздел обзоров на сайте Gartner посвящённый теме качества данных [3]
- О том как отличаются подходы к контролю качества данных при ETL и при ELT [4] подходах
- Подход и практики качества данных в канадском статистическом агентстве [5]

Одна из проблем в обеспечении качества данных в России в том что российских инструментов в этой области совсем нет и невозможно что-то "импортозамещать". В лучшем случае можно найти комбинацию инструментов с открытым кодом, в худшем делать всё с нуля и самостоятельно.

Ссылки:
[1] https://medium.com/datadriveninvestor/data-quality-management-roles-processes-tools-3c912e8e1db6
[2] https://dsbb.imf.org/dqrs/DQAF
[3] https://www.gartner.com/reviews/market/data-quality-tools
[4] https://www.talend.com/resources/best-practices-for-managing-data-quality-etl-vs-elt/
[5] https://www.statcan.gc.ca/eng/data-quality-toolkit

#opendata #dataquality #datamanagement
ASEAN Data Management Framework [1] выл утверждён ещё в январе 2021 года [1] как набор рекомендаций для бизнеса и стран участников ASEAN по гармонизации их законодательства по регулированию и работе с персональными и коммерческими данными. Фреймворк довольно таки верхнеуровневый, как и большинства документов международной бюрократии, впрочем полезен для понимания того как развивается межстрановое регулирование в мире.

И вот некоторые оценки которые там приводятся:
- общий объём цифровой экономики в мире 3 триллиона долларов (на 2016 год)
- совокупный объём интернет экономики в ASEAN 72 миллиарда долларов (на 2018 год)
- ожидается что к 2025 году её объём составит 2025 миллиардов долларов

Важно что они делают акцент на важности инвентаризации данных.


Ссылки:
[1] https://asean.org/storage/2-ASEAN-Data-Management-Framework_Final.pdf

#opendata #data #asean #datamanagement
В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.

Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>

А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.

Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.

Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/

#data #datamanagement #books #reviews
Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.

Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).

Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.

Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.

А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.

А спектр задач работы с данными велик, каждый может найти роль под себя.

Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/

#data #datalibrians #datamanagement
Периодическая таблица элементов открытых данных [1] от Open Data Policy Lab. В ней ничего про технологии и много про организацию процесса, ответственных, взаимодействие с пользователями, нормативное закрепление и так далее.

Сложно сказать насколько это применимо в России и сейчас, скорее не применимо, но для тех стран, регионов, городов и организаций которые в открытые данные вкладывают время и силы - это безусловно полезно, в первую очередь, для структуризации собственных мыслей.

По ссылке кроме этой таблицы подробный опросник.

Ссылки:
[1] https://periodictable.opendatapolicylab.org/

#opendata #opengov #data #datamanagement