Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store
Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.
- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.
- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию
- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных
- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.
Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c
#opendata #data #datalakes #datamanagement #datagovernance
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store
Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.
- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.
- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию
- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных
- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.
Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c
#opendata #data #datalakes #datamanagement #datagovernance
Medium
The 5 Data Consolidation Patterns — Data Lakes, Data Hubs, Data Virtualization/Data Federation, Data Warehouse, and Operational…
How to choose the right one, and why you may need more than one
Счётная палата США (The U.S. Government Accountability Office, GAO) опубликовали доклад DATA GOVERNANCE Agencies Made Progress in Establishing Governance, but Need to Address Key Milestones [1] посвящённый анализу практик работы с данными в органах власти США.
Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.
На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.
Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]
Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152
#opendata #opengov #accounting #datagovernance
Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.
На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.
Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]
Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152
#opendata #opengov #accounting #datagovernance
Global Data Governance - это свежий рейтинг/индекс стран по уровню/качеству управления данными [1]․ Публикуется институтом Джорджа Вашингтона, включает интерактивную карту [2] и профили отдельных стран, например, России [3].
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia