Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Кирпичи решают! #databricks
🎉4👍1
У меня накопилось несколько интересных ссылок по инжинирингу данных, спешу с вами поделиться. Есть еще список машин, которые мне нравятся, но пока не понятно не понятно, что победит здравомыслие или не здравомыслие😂

Airbyte (кривой open source продукт с ETL connectors) опубликовал 2 поста по теме моделирования данных, идеально будет для собеседований.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1)
- Data Modeling – The Unsung Hero of Data Engineering: Modeling Approaches and Techniques (Part 2)

Snowflake опубликовал статья про Deep performance analysis with the new “query operator stats” in Snowflake - если вы работает со снежинкой, прочитайте.
Snowflake users can finally dig deep into query stats with this new function. This data was only available in the query profile visualization, and now you can get it in your SQL world with GET_QUERY_OPERATOR_STATS(). Let’s review the new function, and how to use it to get deeper insights while benchmarking.

Databricks купил AI-centric data governance platform Okera:
Databricks is aiming to integrate Okera’s technology into their existing data governance solution, Unity Catalog. The goal of the integration is to provide more AI-powered functionality to the Databricks platform.

Так же они выпустили бета - Databricks Marketplace (Public Preview): an open marketplace for data, analytics, and AI

Fujitsu консалтинг опубликовал A Practitioners Guide to Databricks vs Snowflake - где якобы сравнили 2 продукта, и пришли к выводу, что нужно покупать Кирпичи, и заказывать внедрение у Fujitsu. Как ни как сделали обзор фич каждого из продуктов.

Небольшой tutorial по DuckDb.

Европейские коллеги отправятся на https://datainnovationsummit.com/ в Стокгольм, а Северо Американские коллеги на Snowflake в Las Vegas.

PS Ранее я писал про архивирование S3 JSON в JSON.GZ, я попробовал 2 метода Spark (через RDD) и S3 DICT CP, оба варианта работают, но решил взять S3 dict cp, в обоих случаях ChatGPT 4 для меня написал код, которые сделает для меня PoC, что сэкономило кучу времени. Так как гуглить каждый параметр и команду заняло бы много времени.
❤‍🔥27👨‍💻6🐳3👻1