Весьма познавательное интервью [1] с George Fraser, сооснователем Fivetran, стартапа и продукта по сбору данных из многочисленных публичных источников/API и тд. В интервью он говорит про SQL, открытый код и революцию которую в это всё принесло появление dbt как продукта позволяющего создавать программные библиотеки для работы с SQL кодом.
Я уже несколько раз ранее писал что dbt стремительно набирает популярность, а создатели этого продукта уже привлекли огромные венчурные инвестиции.
При том что их облачный продукт для России уже малоактуален, а вот open source версия более чем востребована. В каком-то смысле это уникальный ренессанс работы с данными с помощью SQL, никем не ожидавшийся ещё несколько лет назад.
Ссылки:
[1] https://future.a16z.com/sql-needs-software-libraries/
#data #sql #dbt #articles #reading
Я уже несколько раз ранее писал что dbt стремительно набирает популярность, а создатели этого продукта уже привлекли огромные венчурные инвестиции.
При том что их облачный продукт для России уже малоактуален, а вот open source версия более чем востребована. В каком-то смысле это уникальный ренессанс работы с данными с помощью SQL, никем не ожидавшийся ещё несколько лет назад.
Ссылки:
[1] https://future.a16z.com/sql-needs-software-libraries/
#data #sql #dbt #articles #reading
Future
Why SQL Needs Software Libraries
Fivetran CEO George Fraser discusses the lack of software libraries for SQL, and how their emergence could change the nature of data analysis.
Полезное чтение про modern data stack
- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно
Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1
#datatools #opensource #reading #data #moderndatastack
- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно
Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1
#datatools #opensource #reading #data #moderndatastack
Medium
The Key Feature Behind Lakehouse Data Architecture
Understanding the modern table formats and their current state
Полезное чтение про данные
- Hello Datasphere — Towards a Systems Approach to Data Governance [1] о системном подходе к регулировании датасферы и её отличия от других сфер регулирования. Полезный текст для тех кто думает о том "как нам жить дальше" с регулированием рынка данных
- What is Data Ingestion? | The Definitive Guide [2] что такое загрузка данных, неплохой разъясняющий текст описывающий отличия загрузки данных о событиях и данных в виде батчей.
- IATIConnect [3] свежая платформа для обсуждения работы с данными о международной помощи. Несколько оторвано от российских реалий, но неразрывно связано со всеми странами на территории которых идут военные конфликты и которым оказывается гуманитарная помощь
- GAIA-X [4] европейский проект по стандартизации управления и доступом к данным в облаках. Европейская бюрократия медленная и редко рождает инициативы быстрые к практическому применению, но польза в них бывает.
Ссылки:
[1] https://medium.com/@thedatasphere/hello-datasphere-towards-a-systems-approach-to-data-governance-d602f96c9e1d
[2] https://medium.com/operationalanalytics/what-is-data-ingestion-the-definitive-guide-97be6ed86f27
[3] https://iaticonnect.org/
[4] https://www.gaia-x.eu/
#opendata #data #dataregulation #regulation #reading
- Hello Datasphere — Towards a Systems Approach to Data Governance [1] о системном подходе к регулировании датасферы и её отличия от других сфер регулирования. Полезный текст для тех кто думает о том "как нам жить дальше" с регулированием рынка данных
- What is Data Ingestion? | The Definitive Guide [2] что такое загрузка данных, неплохой разъясняющий текст описывающий отличия загрузки данных о событиях и данных в виде батчей.
- IATIConnect [3] свежая платформа для обсуждения работы с данными о международной помощи. Несколько оторвано от российских реалий, но неразрывно связано со всеми странами на территории которых идут военные конфликты и которым оказывается гуманитарная помощь
- GAIA-X [4] европейский проект по стандартизации управления и доступом к данным в облаках. Европейская бюрократия медленная и редко рождает инициативы быстрые к практическому применению, но польза в них бывает.
Ссылки:
[1] https://medium.com/@thedatasphere/hello-datasphere-towards-a-systems-approach-to-data-governance-d602f96c9e1d
[2] https://medium.com/operationalanalytics/what-is-data-ingestion-the-definitive-guide-97be6ed86f27
[3] https://iaticonnect.org/
[4] https://www.gaia-x.eu/
#opendata #data #dataregulation #regulation #reading
Medium
Hello Datasphere — Towards a Systems Approach to Data Governance
Bertrand de LA CHAPELLE and Lorrayne PORCIUNCULA, Datasphere Initiative
Полезное чтение про данные
- о том как FloSQL использует dbt [1] ещё один стартап помогающий управлять потоками данных для труб данных на SQL с интеграцией с dbt внутри. По сути такие продукты - это, в каком-то смысле, продукты по организации SQL кода. Жду когда придумают аналог git'а для SQL или git over SQL (шутка).
- заметка о будущем доверенных сред для исследователей Trusted Data Environment [2] - полезно скорее как развитие мыслей о том как развивается это направление и акценты на data stewardship, data trusts и так далее. Очень далеко от российских реалий, но важно
- Firebolt выпустили Big Data Game [3] забавную онлайн игру о том каково это быть инженером данных.
- у Cube хороший обзор о том что такое Headless BI [4], полезно для всех кто ещё не разобрался
- Data lake vs Data warehouse [5] для сравнения о том что строить, озеро данных или хранилище данных. Главное не строить data swamp;)
Ссылки:
[1] https://www.flosql.com/
[2] https://medium.com/data-policy/trusted-research-environments-require-strong-community-involvement-heres-why-4abe8034a15d
[3] https://www.firebolt.io/big-data-game
[4] https://cube.dev/blog/headless-bi/
[5] https://luminousmen.com/post/data-lake-vs-data-warehouse
#reading #data
- о том как FloSQL использует dbt [1] ещё один стартап помогающий управлять потоками данных для труб данных на SQL с интеграцией с dbt внутри. По сути такие продукты - это, в каком-то смысле, продукты по организации SQL кода. Жду когда придумают аналог git'а для SQL или git over SQL (шутка).
- заметка о будущем доверенных сред для исследователей Trusted Data Environment [2] - полезно скорее как развитие мыслей о том как развивается это направление и акценты на data stewardship, data trusts и так далее. Очень далеко от российских реалий, но важно
- Firebolt выпустили Big Data Game [3] забавную онлайн игру о том каково это быть инженером данных.
- у Cube хороший обзор о том что такое Headless BI [4], полезно для всех кто ещё не разобрался
- Data lake vs Data warehouse [5] для сравнения о том что строить, озеро данных или хранилище данных. Главное не строить data swamp;)
Ссылки:
[1] https://www.flosql.com/
[2] https://medium.com/data-policy/trusted-research-environments-require-strong-community-involvement-heres-why-4abe8034a15d
[3] https://www.firebolt.io/big-data-game
[4] https://cube.dev/blog/headless-bi/
[5] https://luminousmen.com/post/data-lake-vs-data-warehouse
#reading #data
Flosql
Build and deploy dbt models fast. Easily schedule and manage dependent data models for your SQL pipelines.
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]
Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.
Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.
Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.
Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack
#olap #analytics #data #reading
Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.
Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.
Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.
Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack
#olap #analytics #data #reading
benn.substack
The ghosts in the data stack
An OLAP cube exorcism.
Полезное чтение про данные:
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности
Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.medium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8
#reading #datatools #data
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности
Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.medium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8
#reading #datatools #data
Medium
Introduction To A Tool for Data Investigation: SQLPad
Setup on Your Local Machine with Docker, Creating a Dummy DB, Create SQLPad Connections, Bind SQLite With Docker Volumes, Run Some Queries
Неплохой обзор развёртывания ArangoDB [1], альтернативы MongoDB. Альтернативы, в целом, неплохой, но не то чтобы "вау, надо быстро всё заменять".
Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.
С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.
Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.
Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/
#datatools #opensource #software #reading
Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.
С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.
Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.
Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/
#datatools #opensource #software #reading
Medium
Stop using MongoDB as your default NoSQL DB
There’s a better option that you’ve probably never heard of
Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.
Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]
Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.
Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/
#data #reading #tools #moderndatastack
Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]
Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.
Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/
#data #reading #tools #moderndatastack
continual.ai
The Modern Data Stack Ecosystem: Spring 2022 Edition
In this article, we take a peek at what is developing in the modern data stack ecosystem and summarize the main tools and vendors to consider when reaching for new functionality.
В рубрике интересного чтения о данных и не только
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
Tellius
The Definitive Guide to Decision Intelligence: Rise of AI & Augmented Analytics for Better Business Outcomes | Tellius eBook
Полезное чтение про данные:
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
GitHub
dbt-core/docs/roadmap/2022-05-dbt-a-core-story.md at main · dbt-labs/dbt-core
dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications. - dbt-labs/dbt-core
Подборка актуального чтения про открытость данных:
- началась расшифровка и публикация геномов вируса обезьяньей оспы на сайте Nextstrain [1]
- The Future of Open Data [2] книга о будущем открытости данных от канадских исследователей Teresa Scassa и Pamela Robinson. В книге есть отдельный акцент на открытых государственных геопространственных данных.
- Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery [3] рекомендации по управлению данными в ситуациях восстановления при катастрофах
- в Новой Зеландии публикуют данные лидаров нескольких территорий [4]
- власти Великобритании планируют принять закон [5] переводящий в открытые данные данные о городском планировании
- открытый каталог не-открытых данных Ирландии [6], фактически это каталог данных находящихся в управлении органов власти Ирландии, но не публикуемых в силу наличия в них персональных данных или иной чувствительной информации.
- данные и визуализация изменения потребления, генерации и цены на электричество в мире [7] особенно заметен сейчас резкий рост цен на электричество в Европе
- свежее исследование о низком качестве исследовательских данных [8], это отдельная большая работа объяснять учёным как и зачем публиковать данные в пригодном для работы формате.
Ссылки:
[1] https://nextstrain.org/monkeypox
[2] https://ruor.uottawa.ca/handle/10393/43648
[3] https://zenodo.org/record/6566685
[4] https://t.co/YeSmZbOF1Z
[5] https://www.computerweekly.com/news/252518138/Government-levelling-up-bill-promotes-open-data-based-digital-planning
[6] https://datacatalogue.gov.ie/
[7] https://ember-climate.org/data/data-explorer/
[8] https://royalsocietypublishing.org/doi/full/10.1098/rspb.2021.2780
#opendata #reading
- началась расшифровка и публикация геномов вируса обезьяньей оспы на сайте Nextstrain [1]
- The Future of Open Data [2] книга о будущем открытости данных от канадских исследователей Teresa Scassa и Pamela Robinson. В книге есть отдельный акцент на открытых государственных геопространственных данных.
- Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery [3] рекомендации по управлению данными в ситуациях восстановления при катастрофах
- в Новой Зеландии публикуют данные лидаров нескольких территорий [4]
- власти Великобритании планируют принять закон [5] переводящий в открытые данные данные о городском планировании
- открытый каталог не-открытых данных Ирландии [6], фактически это каталог данных находящихся в управлении органов власти Ирландии, но не публикуемых в силу наличия в них персональных данных или иной чувствительной информации.
- данные и визуализация изменения потребления, генерации и цены на электричество в мире [7] особенно заметен сейчас резкий рост цен на электричество в Европе
- свежее исследование о низком качестве исследовательских данных [8], это отдельная большая работа объяснять учёным как и зачем публиковать данные в пригодном для работы формате.
Ссылки:
[1] https://nextstrain.org/monkeypox
[2] https://ruor.uottawa.ca/handle/10393/43648
[3] https://zenodo.org/record/6566685
[4] https://t.co/YeSmZbOF1Z
[5] https://www.computerweekly.com/news/252518138/Government-levelling-up-bill-promotes-open-data-based-digital-planning
[6] https://datacatalogue.gov.ie/
[7] https://ember-climate.org/data/data-explorer/
[8] https://royalsocietypublishing.org/doi/full/10.1098/rspb.2021.2780
#opendata #reading
Zenodo
Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery
A number of challenges are usually faced following a disaster, including ineffective coordination between parties at both local and international levels, limited resources and financial constraints. These challenges have numerous complex factors, which lead…
Написал на английском языке заметку Headless and reverse [data] products [1], это перевод моей русскоязычной статьи [2] о безголовых и обратных продуктах для работы с данными такими как headless BI и reverse ETL.
Тема эта широкая, в качестве упражнения можно даже потренироваться и выписать 3 колонки:
- направление работы с данными
- безголовость (headless)
- обратность (reverse)
Направления можно взять из Modern Data Infrastructure [3], а можно из любых других областей ИТ.
Ссылки:
[1] https://medium.com/@ibegtin/headless-and-reverse-data-products-a20dc163b382
[2] https://begtin.substack.com/p/19?s=w
[3] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
#architecture #data #reading
Тема эта широкая, в качестве упражнения можно даже потренироваться и выписать 3 колонки:
- направление работы с данными
- безголовость (headless)
- обратность (reverse)
Направления можно взять из Modern Data Infrastructure [3], а можно из любых других областей ИТ.
Ссылки:
[1] https://medium.com/@ibegtin/headless-and-reverse-data-products-a20dc163b382
[2] https://begtin.substack.com/p/19?s=w
[3] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
#architecture #data #reading
Medium
Headless and reverse [data] products
Last month I read a lot of texts about modern data stack (MDS) — it is well described by Fivetran [1].
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
Twitter
Adi Polak
Make a data engineer cry with just 4 words