У меня накопилось несколько интересных ссылок по инжинирингу данных, спешу с вами поделиться. Есть еще список машин, которые мне нравятся, но пока не понятно не понятно, что победит здравомыслие или не здравомыслие😂
Airbyte (кривой open source продукт с ETL connectors) опубликовал 2 поста по теме моделирования данных, идеально будет для собеседований.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1)
- Data Modeling – The Unsung Hero of Data Engineering: Modeling Approaches and Techniques (Part 2)
Snowflake опубликовал статья про Deep performance analysis with the new “query operator stats” in Snowflake - если вы работает со снежинкой, прочитайте.
Snowflake users can finally dig deep into query stats with this new function. This data was only available in the query profile visualization, and now you can get it in your SQL world with GET_QUERY_OPERATOR_STATS(). Let’s review the new function, and how to use it to get deeper insights while benchmarking.
Databricks купил AI-centric data governance platform Okera:
Databricks is aiming to integrate Okera’s technology into their existing data governance solution, Unity Catalog. The goal of the integration is to provide more AI-powered functionality to the Databricks platform.
Так же они выпустили бета - Databricks Marketplace (Public Preview): an open marketplace for data, analytics, and AI
Fujitsu консалтинг опубликовал A Practitioners Guide to Databricks vs Snowflake - где якобы сравнили 2 продукта, и пришли к выводу, что нужно покупать Кирпичи, и заказывать внедрение у Fujitsu. Как ни как сделали обзор фич каждого из продуктов.
Небольшой tutorial по DuckDb.
Европейские коллеги отправятся на https://datainnovationsummit.com/ в Стокгольм, а Северо Американские коллеги на Snowflake в Las Vegas.
PS Ранее я писал про архивирование S3 JSON в JSON.GZ, я попробовал 2 метода Spark (через RDD) и S3 DICT CP, оба варианта работают, но решил взять S3 dict cp, в обоих случаях ChatGPT 4 для меня написал код, которые сделает для меня PoC, что сэкономило кучу времени. Так как гуглить каждый параметр и команду заняло бы много времени.
Airbyte (кривой open source продукт с ETL connectors) опубликовал 2 поста по теме моделирования данных, идеально будет для собеседований.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1)
- Data Modeling – The Unsung Hero of Data Engineering: Modeling Approaches and Techniques (Part 2)
Snowflake опубликовал статья про Deep performance analysis with the new “query operator stats” in Snowflake - если вы работает со снежинкой, прочитайте.
Snowflake users can finally dig deep into query stats with this new function. This data was only available in the query profile visualization, and now you can get it in your SQL world with GET_QUERY_OPERATOR_STATS(). Let’s review the new function, and how to use it to get deeper insights while benchmarking.
Databricks купил AI-centric data governance platform Okera:
Databricks is aiming to integrate Okera’s technology into their existing data governance solution, Unity Catalog. The goal of the integration is to provide more AI-powered functionality to the Databricks platform.
Так же они выпустили бета - Databricks Marketplace (Public Preview): an open marketplace for data, analytics, and AI
Fujitsu консалтинг опубликовал A Practitioners Guide to Databricks vs Snowflake - где якобы сравнили 2 продукта, и пришли к выводу, что нужно покупать Кирпичи, и заказывать внедрение у Fujitsu. Как ни как сделали обзор фич каждого из продуктов.
Небольшой tutorial по DuckDb.
Европейские коллеги отправятся на https://datainnovationsummit.com/ в Стокгольм, а Северо Американские коллеги на Snowflake в Las Vegas.
PS Ранее я писал про архивирование S3 JSON в JSON.GZ, я попробовал 2 метода Spark (через RDD) и S3 DICT CP, оба варианта работают, но решил взять S3 dict cp, в обоих случаях ChatGPT 4 для меня написал код, которые сделает для меня PoC, что сэкономило кучу времени. Так как гуглить каждый параметр и команду заняло бы много времени.
❤🔥27👨💻6🐳3👻1