Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#weeklydatanewsdump

Как обычно накопились ссылки за неделю.

The dbt Semantic Layer: what’s next - свежий пост про Metric Layer. Концепт не простой, но важный. Главная задача - навести порядок в показателях. Так как dbt позволяет нам легко плодить модели (sql запросы), то очень быстро можно развести такой бардак, что BI инструментам с Self-Service и не снилось.

Introducing MetricFlow: Your powerful, open source metric framework - Open Source фреймворк для Metric Layer. (не работал с ним)

Бесплатный курс по Apache Kafka от Confluent.

Salesforce Introduces the Next Generation of Tableau, Bringing Generative AI for Data and Analytics to Everyone - табло презентовало GPT функциональность в своем продукте. Только ленивый не интегрируется с generative AI. Табло еще года 3-4 назад добавил функциональность text to insights с использование NLP, но как-то не пошло, как и у Power BI с voice to insights. Посмотрим, как сейчас пойдет. В любом случае все эти прибамбасы не решат базовых проблем с качеством данных, документацией, моделью хранилищ данных и тп. Старом как мир - shit it, shit out. Имеется ввиду, что положим в хранилище или BI, то и получим. Пока еще AI не делает за нас работу по созданию аналитического решения под ключ.

UK Government Data Maturity Assessment Framework - пример фреймворка, как навести порядок в данных.

How Swimply Built Its Hyper Growth Data Stack with Snowflake, Fivetran, and Monte Carlo - Data Observability инструмент Montecarlo (я им пользуюсь для Snowflake и очень доволен) делится примером современного решения с использованием Snowflake, dbt, segement, looker и тп. Супер типовое решение в западной компании, с которым приятно работать, так как нет open source внедрений из "💩 и палок".

Seven Tips for Using S3DistCp on Amazon EMR to Move Data Efficiently Between HDFS and Amazon S3 - я уже делился про свою задачку по компрессии 2-3 Petabytes данных. В итоге я попал на S3 Rate Limit... Использовал Glue Spark в итоге, так как каждый джоб могу запускать в изоляции, но вот Rate limit он для всех один, и опять уперся, что решение не масштабируется.

Demystifying Table Formats in Data Lake (feat. Apache Iceberg) - обзорная статья про Lakehouse.

Mastering Collaboration as A Data Engineer - How to become a 3X Data Engineer by being a team player - статья как быть супер пупер инженером данных. Автор явно упустил, что хороший и плохой инженер зарабатывает примерно одинаково, что увольняют их так же одинаково, и даже больше шансов, что уволят инженера кто более опытный и больше получает. Поэтому я бы учил людей не как быть 3х инженером, а как зарабатывать 3х с 0х стрессом. Поэтому не видитесь на всякую лажу😎 Как бы вы не старались, вас все равно могут уволить, сократить, или просто забить на ваше повышение и прибавку к зп.

Я почти закончил читать довольно маленькую книгу - Escaping the Build Trap: How Effective Product Management Creates Real Value. (вы можете легко найти PDF), книга супер:
1. Вы узнаете про product менеджмент
2. Вы сможете понять, в чем заключается build trap для инженера (особенно когда мы фигачим data pipelines, dashboards и тп)

Я добавил PySpark + AWS CLI команды для Glue (makefile) в GitHub. На одном проекте был хакатон, и я взял один день cloudflare логов 250гб, и через Glue запустил 24 jobs одновременно, у каждой был свой compute. 1jobs = 1 hour partition. Нужно было распарсить JSON и сохранить результат в Parquet и писать запросы через Athena. Сейчас это все работает на Snowflake через EXTERNAL TABLES и dbt-external утилитка, чтобы создать dbt source таблицы. На другом проекте я собираюсь использовать тот же dbt-external для Redshift (чтобы уйти от Athena).

Результаты:
Glue - 5 минут, цена 16$
Snowflake - 4 часа, цена 67$ (это был то, как это сейчас работает).

Вопрос использования инструмента(ов) это большой Tradeoff между удобством, ценой, скилами команды.
❤‍🔥24🫡4🗿1
#weeklydatanewsdump

Начну с приятного - Xbox покажет Starfield Direct. Игру делала студия, которая делает Fallout, Skyrim и Doom. Кстати аналитику всю делают для этих игр на AWS Databricks + Scala.

Ну а дальше обычные data news.

Uber опубликовал статья - Spark Analysers: Catching Anti-Patterns In Spark Apps - важный аспект, если у вас тысячи пользователей и вы пытаетесь держать руку на пульсе и бороться с "кривыми руками" пользователей. Убер большой и может себе такое позволить.

Snowflake очень, я бы даже сказал очень-очень, активно продвигает Snowpark, стирая границы между традиционным хранилищем данных и big data решениям с Hadoop, Spark, Hive и тд - Snowpark: Designing for Secure and Performant Processing for Python, Java, and More. Да и по конференции снежинки можно заметить, что очень много тем завязано на Snowpark.

У Microsoft Fabric есть своя страница, где публикуются все новости. После недавнего релиза, я вижу, что количество проблем измеряется 1000 к одному, где на 1000 вопросов\проблем по Power BI (главный интерфейс fabric) приходится один про Data Factory, Synapse DW, Data Explorer). Я именно такого и ожидал, пользователям Power BI еще долго будет не понятно, че за на 😵 Мне кажется не готов мир еще к такому чудо продукту.

Пост про data modelling - The Data Modeling Divide. Тема с 80х и циклично появляется и пропадает.

Вышла книга - Data Modeling with Snowflake от SQLDbm (облачный продукт для моделирования хранилищ данных, у которого дела пошли в гору после партенерства со Snowflake). Ребята классно проводят время в San Diego и очень прикольно за ними наблюдать. Хочу отметить, что это один из немногих стартапов, который не искал внешних инвестиции, seeds, rounds и тп. Так как понимали, что за этим кроется, и у них все классно и без внешних вливаний. Обязательно с ними встречусь вживую на конференции, до этого только переписывались. Я про них еще писал в 2018 году в книжке jumpstart snowflake.

Еще одна замечательная вещь про Snowflake - вы можете детально смотреть на стоимость запросов и искать узкие места, все данные для этого есть - Calculating cost per query in Snowflake

Компания Checkout рассказывает как используют dbt+snowflake - Building dbt CI/CD at scale

Если вы используете Clickhouse - то вот отличное видео Tips and tricks every ClickHouse user should know

Ну и как не сообщить о релизе SQL:2023
💘24🦄9🐳6❤‍🔥3
#weeklydatanewsdump

И снова накопилась порция полезных ссылок.

Мне понравилось видео - God-Tier Developer Roadmap, в котором автор рассказывает о пирамиде языков программирования, начиная с таких простых как Scratch. Было бы классно сделать такую же пирамиду про Аналитику. Например, в моем понимании начинается с Excel->SQL->Python->Scala/Go и тп.

Другое видео I Tried Andrew Huberman's Morning Routine - [30 Days + Blood Tests] - в целом про дисциплину. Мы все знаем как быть успешными (для меня отчасти это синоним дисциплинированности), но очень мало людей имеют достаточно мотивации, чтобы следовать простым правилам, которые сделают вас более продуктивными, мотивированными, и как следствие более счастливыми и здоровыми. Это большой топик, у которого нет четкого решения.

Недавно увидел очень удобный плагин Fig, у которого нереальный autocompletion. Это open source. Другой классный плагин для CLI - fx, который умеет красиво форматировать JSON в командной строке.

Парочка ресурсов про PySpark Style Guides:
- PySpark Style Guide
- Palantir PySpark Style Guide - активно использовал его.

Вообще style guide необходим, чтобы вы не использовали, чтобы все было "по красоте".

Отличная статья, которая помогает разобраться в Presto\Trino терминологии - Introduction to Presto/Trino for Data Engineers. Кстати AWS Athena использует Presto query engine. Так же недавно мы общались с Trino/Presto основателями. Мой текущий DE менеджер (пригласил бывших коллег) был сокращен из Meta, где он проработал года 3, а до этого он много лет работал в Lyft, еще до IPO. Очень грамотный мужик, слушаю его и впитываю информацию. Вообще он сказал, что уже на пенсию собирается=) как я понял он грамотно распорядился стоками Lyft/Meta и владеет недвижимостью в Канаде и США, и в свободное время менеджер инженеров🛺

Snowflake поделился - Monitoring your Snowflake Organization with Snowsight. Вообще, все что есть в снежинке для мониторинга стоимости сделано очень качественно и детально, можно все отслеживать и тем самым экономить и оптимизировать.

Хотя согласно этой маркетинговой статье REDUCING OUR DATA INFRASTRUCTURE COSTS BY 76% BY MIGRATING FROM SNOWFLAKE TO DATABRICKS в Databricks будет еще дешевле🙈, и где то я видел, что в Trino будет еще дешевле, чем в Databricks и про миграцию из Trino/Presto на Snowflake. Круг замкнулся. 😭

Пока мы топим за облака, есть компании, кто очень круто обходится без облаков, так как особо никаких нет преимуществ для них - Inside Agoda’s Private Cloud. Поэтому для большинства Российских компаний быть не в облаке это уже не значит, что компания динозавр, а наоборот осмысленный шаг.




Еще несколько Git Repos с полезными материалами по Software Engineering Foundations:
- 30-seconds-of-code
- Public APIs - Explore, discover and consume public APIs as simpler programmable building blocks all on one platform for a 10x developer experience.
- free-programming-books - The list was moved to GitHub by Victor Felder for collaborative updating and maintenance. It has grown to become one of GitHub's most popular repositories, with 271,000+ stars, about 9,700 watchers, more than 8,300 commits, 2,400+ contributors, and 54,000+ forks.
- The Algorithms - Open Source resource for learning Data Structures & Algorithms and their implementation in any Programming Language
-
Tech Interview Handbook - free and curated technical interview preparation materials for busy engineers, brought to you by me, the author of Blind 75. Over 500,000 people have benefitted from this handbook!

PS И маленький бонус для Северо Американских (и не только) коллег - Insights про ипотеку, как начать экономить и перестать жечь деньги на ипотечный процент - Mortgages and Christmas Gifts и еще мне понравилось Understanding Money - это все личный блог Harley Hahn, автора книги про Unix, Emacs и множество других. Мужик просто гений.
❤‍🔥27🐳5🍾3🫡3🌭1
#weeklydatanewsdump

Начну сначала с подписок за неделю, расскажу о чем пишут tech инфлюенсеры

The Pragmatic Engineer (посты короткие и по делу)
Interesting Learnings from Outages - автор рассказывает про несколько крупных инцидентов. Вы узнаете, что такое incident review и postmortem. Довольно редко такое можно встретить среди аналитических решений, но для SDE решений это стандарт

Building an an Early Stage Startup: Lessons from Akita Software - небольшой интервью с основателем Akita, которую купил Postman.

Seattle Data Guy (несмотря на его популярность, как-то он мне совсем не заходит, и ничего прорывного не пишет, но популярен)
Operational Data Stores Vs Data Lakehouses And All The Other Data Management Methods - узнаете что такое Data Warehouse, Data Lake, Data Mesh, ODS и тп. Ну как узнаете? Если вы знаете, что это такое, то будет понятно, а если нет, то ничего не поймете😄

Getting Unstuck In Your Data Career - идеи про развитие карьеры. Пару банальных и важны вещей - горизонтальные рост (набор дополнительных скилов для вашей профессии), Business Domain (понимание бизнеса). Последнее я считаю очень важных. Ну про soft skills и так все понятно, нельзя быть таким же токсичным на работе, как в комментариях в телеге😭

MongoDB Is Great For Analytics; Until It's Not - для кого-то очевидно, что "Excel это не база данных" (с), и что NoSQL MongoDB нельзя использовать как аналитическое хранилище данных. А для кого-то нет, вот и разгребают потом 💩

Zach Wilson (чувак начал продавать курсы, и много пишет, у него свой стиль, и многие подходы из его опыта дельные, но мне кажется из-за собаки хаски у него + 100 к лайкам и решерам🐶)

How I got a data engineering job at Facebook coming from a small town and tier 3 university - начало большого пути

How I transitioned from mid-level data engineer at Facebook/Meta to senior software engineer at Netflix in less than 1 year - у народа в долине свои течения, успехи и огромные зарплаты. История автор

Data & Data Engineering — the past, present, and future - история аналитики, начиная c Римской Империи.🛵

The Datelist Int - An Efficient Data Structure for User Growth - структура позволяющая конвертнуть множество строк в одну строчку с массивом.

Cumulative Table Design - is an extremely powerful data engineering tool that all data engineers should know. ( я не использовал такую штуку, возможно для конкретных кейсов будет работать)

А теперь к другим новостям:

Streaming Analytics with Tableau and Databricks - real time дашборд это реальность или утопия? Я не сомневаюсь, что databricks может "лить" данные в таблицу нон-стоп. А вот может ли табло отрисовывать данные (обновлять) или не может, не понятно.

21 Great ChatGPT Prompts for Your Resume

PayPal for Data Contract - сейчас много разговоров о контрактах данных, и вот pay pal предложил свой подход. A data contract defines the agreement between a data producer and consumer.

Snowflake SQL Improvements | Summit 2023 - много классных обновлений для SQL в ❄️
👨‍💻25❤‍🔥18
#weeklydatanewsdump

Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core - Теперь в AWS Glue можно использовать dbt core (бесплатный который), как я понимаю для Spark SQL. Я все еще не могу согласиться, что для Spark нужно использовать dbt. 😱

Confluent Announces Intent to Acquire Immerok to Accelerate the Development of a Cloud Native Apache Flink Offering - Confluent купила компания, которая продавало другое популярное решение для стриминга Apache Flink.

LLM Apps Are Mostly Data Pipelines - статья написано Meltano. Напомню, что это набор бесплатных connectors для ELT. Я на своем опыте уже зае заколебался использовать этот инструмент для Google Analytics, Google Ads, Google Search Console, Microsoft Bing. Каждый раз как в первый раз. Приходится лезть в source code, создавать баги в репозиторий и искать почему эта хреновина не работает. 👿 А про LLM я бы вообще помалкивал бы🤐

Does your organization have a culture of mediocrity? - про "посредственность" в организации

Schedule and Invoke Notebooks as Web Services using Jupyter API - если вы уж так любите в ноутбуках творить 🧐 то можно уже и на расписание поставить ваше творение😙

Advantage Lakehouse - онлайн мероприятие для Databricks и вам еще дадут купон на 100$ для экзамена

Riverbed: Optimizing Data Access at Airbnb’s Scale

Prefect обещает прислать носки и кепку, или даже футболку и кружку, если вы им оставите хороший отзыв. Напоминает накрученный рейтинг от Амазона, где у китайской товара тысячи 5 звезд🫣

Effectively using the MERGE command in Snowflake - пример использования MERGE в Snowflake и возможность оптимизации
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡12🐳4🍌1
#weeklydatanewsdump

Самое интересное за последнее время - это оживления рынка - больше вакансий, компании планируют свое IPO, или ожидают поглощения, меньше увольнений и самого страха увольнения, снова инвестиции в data компании.

Единственное, что я не заметил это рост зарплат, хотят должны быть 10% в год к base pay на рынке. Вот работаете год за X, в следующем году у вас будет X+2% (если повезет), а на рынке уже можно просить X+10%-15%, поэтому сидеть на одной работе это упущенная выгода, если вам конечно важна ваша компенсация, так как для многих от "скакунов" появляется презрительная ухмылка. Хотя "скакуны" это двигатель прогресса по части компенсации.

Другой момент - это стоимость рынка акций, в целом есть компании кто вырос сильно, как NVIDEO, но большинство tech и стоки инженеров в глубоком минусе. Придется дальше ждать😲

Кстати, недавно узнал сколько стоит сделать custom sticker park для телеграмма с анимацией - 3к USD 10 штук, 6к USD 20 штук, но это прям мега профессиональные, дорого конечно. Я бы купил и 20, если за меня еще и всю концепцию придумали, а то ведь надо еще и концепцию придумать. Зато можно себя увековечить, почти как памятник поставить, недорого))

💲Давайте еще раз посмотрим на интересные события:
Cisco купил Splunk
Secoda Raises $14M to Save Companies from Drowning in Data
Tabular Closes $26 Million in Funding - интересный продукт и есть Open Source, работает с Iceberg, но я сам еще не попробовал, стоящая штука чтобы изучить. У нас даже со Snowflake планируют использовать для landing zone.
DataBlend Raises Seed Funding Round
Databricks raises over $500 mln at $43 bln valuation - сегодня изучал компании, которые позволяют инвестировать в private компании, кто-нибудь знает хороший сервис?
ThoughtSpot acquires Mode Analytics, a BI platform, for $200M in cash and stock - не пробовал ни один, ни другой, но у Mode классный SQL симулятор.
MotherDuck secures investment from Andreessen Horowitz to commercialize DuckDB - кто-нибудь использует их?
А вот еще отличная бизнес ниша для kaggle чемпионов - As AI porn generators get better, the stakes get higher.

Ладно, давайте ближе к телу делу.
🐶Zach Wilson - является топ DE influencer. Его посты в linkedin набирают по 300 лайков. Он и курс запустил по DE, где за 1000+ вы можете пройти его самостоятельно, самое интересное, что он сделал сам платформу, где нужно лабу делать. Недавно он написал, что в месяц он получает 50к US, ну что могу сказать, красавчик!
Вот парочка его писем из недавних:
- How to pass data engineering SQL interviews in big tech - все по делу. Знали бы вы сколько раз я провалился на простых SQL вопросах на собесах, реально стыдно. Даже если вы его используете каждый день, некоторые вопросы вас застанут врасплох.
- How to pass the data modeling round in big tech data engineering interviews - на таких вопросах я тоже плыл. На самом деле данный пост не совсем однозначный, например про One Big table я не знаю, зато знаю про Data Vault.

🐼Другой influencer - Seattle Data Guy тоже не молчит, и спамит мой почтовый ящик:
- The Challenges You Will Face When Data Modeling - тоже про моделирование данных. Но все это похоже на плохой пересказ Кимбала. Сколько чувак зарабатывает я не знаю.

Для меня всегда вопрос, что народ делает с баблом. Вот музыкальные блогеры понятно, все на показ, и tech блогеры выглядят, как будто за еду работают😮

- Mistakes I Have Seen When Data Teams Deploy Airflow - мне кажется, что Airflow это инструмент, который все используют, и все ненавидят, потому что ни в одной серьезной организации он не может работать стабильно, по крайней мере я не видел. Лучше cron ничего не придумали еще.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥16🐳7🌚1👨‍💻1