Инжиниринг Данных
19.1K subscribers
1.49K photos
24 videos
175 files
2.78K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, angel investor.

Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Download Telegram
Я прочитал отличную книгу - Staff Engineer: Leadership beyond the management track, которую написал
Will Larson, сейчас он работает CTO Carta, это сервис который управляет опционами компаний, которые еще не вышли на IPO, возможно там и другие продукты из этой же категории.

У меня даже есть аккаунт Carta с опционом на 20k USD, который сгорит через 30 дней. Сначала я хотел выкупить его, потом подумал, что цена будет для меня почти 60k CAD (я считаю деньги до налогов), и я не уверен, что акции этой компании вырастут, даже если он выйдут на IPO в ближайшие 2 года.

Книга состоит из интервью Staff+ инженеров и выжимки основных идей, там даже есть интервью одной Staff DE из Mailchimp.

В целом книга хорошая, там четко прослеживается алгоритм действий для карьерного роста, даже с middle на senior. Очень много примеров и информации по стилю работы, который ожидается от Staff DE. Лично я на одном проекте являюсь Staff DE уже 1,5 года, и со всем полностью согласен.

Например, вещи которые осели в голове
Есть несколько архетипов Staff+ инженеров: Тим лид, Архитектор, Solver, Right Hands (Advisors).
Staff+ инженеры тратят много времени на менторство
Для Staff+ инженеров наличие “staff project” не является ключевым
Staff+ инженеры пишут мало кода и часто из обязанности пересекаются с обязанностью менеджеров, но только без performance reviews
Staff+ инженеры очень часто выступают в роли “клея” и взаимодействуют с разными командами и организовывают работу, задают техническое направление
Staff+ инженеры пишут много документов и конечно у них отличные Soft Skills
Иногда Staff+ инженеры решают hard problems

В книге собрано огромное кол-во ссылок на топ книги и статьи! А еще честно написано в каких случаях нужно менять работу или менеджера.

Если я буду анализировать свои 1,5 года в роли Staff, то на ум приходит:
Менторство (за год я вырастил 3 data engineer из смежных профессий, все были в моей команде)
“Клей”: очень много времени потратил на взаимодействие с product подразделениями внутри организации, и с помощью различных документов синхронизировал людей и техническое направление
Кода я писал очень много + инфрастуктурные вещи (это потому что в этой организации Staff+ прежде всего hands-on)
Мне приходилось быть одновременно: Тим лид, Архитектор, Solver


Главное, что нужно знать, что в 90% случаев Sr Engineer это потолок и от вас никто не ждет, что вы станете менеджером или Staff инженером. Но такая возможность существует, и если вам не хочется руководить людьми, то Staff+ лучший вариант. Например, я нашел компанию, где мне дали Staff на входе.

——
Теперь традиционно мое мнение про индустрию. Как я сказал, написано все красиво и классно. Но когда я читал книгу, у меня был какой-то внутренний диссонанс.

Меня мучали вопросы - сколько каждый инженер зарабатывает? А есть ли у них ипотека? А на какой машине ездят? А сколько детей? И тп. Потому что все эти карьерные истории напоминают мне аквариум, и они очень интересны и мотивирующие пока мы сами находимся в этом аквариуме и не подразумеваем, что существует целый океан за пределами нашего аквариума. Но это мой опыт и мой bias к происходящему.🤦‍♂️

Другой момент, мне напомнил про MBA программы, которые учат нас на кейсах 10ти летней давности. И очевидно, что работало 10 лет назад уже не работает, поэтому, возможно, некоторые красивые истории уже не сработают в будущем, ведь книга была написана в течении 2021 года на материалах 2020 года, еще до начала всех увольнений, бума AI, и других изменений индустрии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Так выглядит модуль 1 Data Learn в 2024 году, 90% совпадает с тем что было 3 года назад, то есть фундаментально ничего не поменялось, и думаю еще долго не поменяется
Media is too big
VIEW IN TELEGRAM
Извините за офтоп и еще не первое апреля, но не смог удержаться при просмотре сего шедевра особенно в связи последних комментариев про денГи под постом о Стафф инженерах.
Наконец-то попалась новость, которая говорит о движениях в индустрии. Ничего принципиально нового, но уже достаточно четкий тренд.

Как было раньше?

У вас или Хранилище Данных, у которого свой собственный storage, или у вас Озеро Данных, где storage отдельно от compute.

Потом появился Snowflake, и там вроде и хранилище, но по факту данные хранятся отдельно (в закрытом формате), и назвали это Lakehouse. Databricks тренд подхватил.

Open source community создало 3 продукта - Delta, Hudi, Iceberg, которые позволяют любому желающему сделать Lakehouse “бесплатно”.

Поэтому большие вендоры не смогли пройти мимо, и теперь мы видим как Snowflake выпустил Managed Iceberg Tables. Amazon Athena тоже поддерживает Iceberg. И можно у любого вендора найти историю про интеграцию.

Аналитические БД Clickhouse, DuckDb используются как SQL engine поверх файлов в озере данных, то есть тот-же Lakehouse.

BigQuеry тоже работает с Iceberg - Announcing Apache Iceberg support for BigLake

То есть если традиционно каждый продукт был отдельной единицей и можно было выбирать - Serverless, Open Source, Data Lake, Data Warehouse, то теперь все это интегрируется в единую экосистему, и благодаря открытым форматам данных уже сложней сделать Vendor Lock.
От Автора вебинаров:

Хороший аналитик думает быстро и думает правильно.

Об этом в DataLearn провел два вебинара:
Развитие аналитического мышления -
https://www.youtube.com/live/7qVJO0-XdL4

Проекты и продукты: взболтать, но не смешивать -
https://www.youtube.com/live/6SaRpBoZ5Go

Эти вебинары, а особенно вопросы и обратная связь от аудитории стали основой для понимания элементов аналитического мышления и того, как они связаны между собой. В итоге всё удалось объединить в краткий, сжатый, очень плотный курс по тому, как развивать аналитическое мышление -
https://stepik.org/a/187981

Первая половина курса доступна бесплатно, чтобы понять, насколько вам это нужно.

Для подписчиков до 7 апреля 2024 по промокоду DATALEARN скидка 25%
Как искать работу зарубежом?

Канал Connectable Jobs собирает вакансии в международных стартапах с русскоязычными фаундерами и командами, публикует информацию о бэкграунде фаундеров, размере команды и инвестициях, а также делится прямыми контактами HR для отклика. Вот несколько актуальных вакансий:

Data Analyst в Rarible (Лиссабон/EU)
Product Analyst (L2 & ZK) в P2P.org (remote)
Senior Data Engineer в Exness (Кипр)

Еще у ребят есть платный канал только для продактов, аналитиков и маркетологов, где вакансии с прямыми контактами публикуются каждый день.

Подписывайтесь и развивайте карьеру в будущем единороге!
У Илона все ок с чувством юмора🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
Не секрет, что нейросеть можно обучить чему угодно. Тут коллеги по ремеслу из Яндекса поделились в статье как они обучали свою LLMку YandexGPT пересказывать видео.

За основу взяли модельку, которая уже могла делать саммари статей внутри браузера. И начали по полной качать LoRA адаптер. Главное преимущество именно этого метода – он позволяет быстро экспериментировать и проверять огромное количество гипотез. А это необходимо при условии, что моделька обучалась на 20 000 суммаризаций (которые прошли ручную разметку!).

К тому же используя LoRA можно улучшить устойчивость модели к шуму, что может быть полезно в случаях, когда данные не идеальны. И что немаловажно – спасти от promt injections. Эти инъекции могут быть коварны – они могут привести модель к переобучению, что может снести весь текущий прогресс.
Пипец зарплаты на рынки с AI, такого не было раньше🍿

Недавно бывший VP Amazon (из Seattle) написал, что его годовой comp был 900к$ и в хороший год доходил до 2х млн$, а тут после универа и Phd можно сразу на такие деньги залететь.

Забавна, как несколько лет назад никто особо не смотрел в эту сторону, а теперь блогеры, которые успели запрыгнуть в ChatGPT контент (стали как бы экспертами) тоже неплохо крутятся.

Возможности приходят и уходят и кому-то удается максимально их реализовать.

Ну что, учите AI, LLMs, GenAi, Cuda?
Please open Telegram to view this post
VIEW IN TELEGRAM
Отличный совет для наших детей, что нужно учить в будущем. И получается Computer Science и Coding не очень вписываются в будущее https://youtu.be/BD6xQsk0ewQ?si=b-sPx1XOf3fgWtrU
Я немножко запоздал, но в Канаде только утро 8 марта.

Девушки с в 8 марта! Успехов вам, побольше путешествий и качественных данных!

PS источник фото https://katerinasov.ru/disk/8-marta-bh3jz4 (там еще много открыток)
Если вдруг интересно чего по чем там в Австралии https://www.youtube.com/watch?v=R2plum6sLT4

PS Нашел много Azure, Dataricks, и чего-то не так много Snowflake и dbt, может не там искал=) Зарплаты на уровне Канады, например Staff DE - 220к, Head of Data/Director - 250к в год в австралийских тубриках до налогов. Зимой планирую на месяц в Австралию и там попробовать сделать Surfalytics Bootcamp 🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня в Surfalytics мы изучали конкурента dbt labs - paradime.io. Честно говоря до сегодняшенего дня я не знал о существовании этой компании и было интересно послушать и понять в чем же их главное отличие от dbt cloud.

Никита участвовал в dbt челлендже который они устраивали и запилил проект на Modern Data Stack используя как раз paradime для dbt, ну и пару других инструментов таких как Hex и Sigma. Кстати приз за первое место $1500 USD - хорошая мотивация для тех кто изучает новые технологии.

Про paradime сложилось впечатление что ребята просто взяли dbt core и запили платную версию с интерфейсом как в VSCode с уже встроенными расширениями и job scheduler.

Но самое главное, что Никита сделал с нуля проект, изучил новый интрумент и поделился своим опытом со всеми участниками коммьюнити. Это отличный пример для тех кто учится и развивает свою карьеру. Очень рад что Surfalytics помогает в этом.

Пост от Никиты по итогам сегодняшнего воркшопа:
https://www.linkedin.com/posts/nikita-volynets_a-few-weeks-ago-i-discovered-a-new-dbt-workspace-activity-7172345289188470784-UNj-

Можно поддержать лайком, чтобы было больше шансов на победу!
Пример современного решения на Azure Databricks, и даже умудрились использовать dbt.

Сама статья больше про data quality проекта (качество данных) - Data Quality within Lakehouses
Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные офферы.

Пройти опрос можно здесь
Попался price рекрутера из Ванкувера, кто может вам сделать резюме.

1850 USD за резюме + Linkedin, при условии, что вы опытный специалист.

Сэм знает себе цену! Он тоже в Ванкувере, я хотел с ним на кофе сходить, но он сказал мне, что у него бизнес тут, и ему некогда на кофе с кем попало ходить.

PS Делаете услуги про резюму? Теперь вы знаете правильны расценки - от 150$ за 15 минут))
This media is not supported in your browser
VIEW IN TELEGRAM
А есть кто из New York?

Планирую там быть 18-21 апреля, можно будет какой-нибудь митапчик сделать 🗽

А Seattle 17-19 мая.🍩
Please open Telegram to view this post
VIEW IN TELEGRAM
Сидишь такой в четверг вечером и думаешь, что уже день прошел, а работа не сделана и все выбираешь, что сделать:

- Зафорсить Airflow DAG и сделать новый для Reverse ETL
- Поковыряться в Snowflake чужой команды, чтобы интегрировать через data share со своим
- Почитать best practices для Open Metadata
- Пофиксить косяки для EMR Serverless
- Узнать почему же у товарищей упал dbt поверх Databricks и помочь им его починить
- И еще надо бы люстру прикрутить
- И конечно закончить налоги!!!

В общем пока я думал, мне в Surfalytics прислали описание вакансий в Open AI:
- Data Engineer - 245k-390k
- Analytics Engineer- 210k-250k

Вакансии в SF.

Что используют:
- Hadoop на AWS, как я понимаю EMR + Spark, и предпочтение отдают Scala
- Tableau/Looker для BI
- упомянули про хранилище данных, но не сказали какой
- для оркестрации что-то из Airflow/Prefect/Dagster

Как понимаю есть и dbt, и обязательно будет классическое хранилище, не удивлюсь если по умолчанию Redshift. Оно и понятно, они не хотят вовлекать вендора, чтобы никто не хайповал, что у них клиент Open AI.

Ну я решил сразу хайпануть и записать обзор - Decoding Careers at OpenAI: Overview of Data & Analytics Engineer Opportunities