Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
P&L или Profit & Loss важная финансовая отчетность. Которая с одной стороны простая. А с другой вообще не понятно.

Поэтому данный пост Reading a Profit & Loss statement вам в помощь
22❤‍🔥2💯2🙈1
350к $ в год на расходы - хороший F.I.R.E. в Калифорнии. Вообще смотрел, надо накопить 5млн $ кешем, и уже жить на дивиденды, хотя если средний рост 5%, то 250к в год это прям не густо. Кто-то мне говорил про 2млн CAD для Торонто (наверно наивная оценка). Я сам не планирую FIRE, так как расходы высокие на детей и на жизнь, но всегда интересно смотреть на цифры - Your Neighbors Are Retiring in Their 30s. Why Can’t You?

Идея не работать на дядю очень классная, и работать на себя и в своем режиме тоже замечательно. FIRE это не про сидеть на диване и ничего не делать, это больше про свободу. А свобода стоит денег, так что надо много работать и учиться. А там уже как повезет🚣

Есть у кого инфа про FIRE или планы ранней пенсии?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥15
14-15 мая - Iceberg Summit. Iceberg формат для хранения данных в озере данных lake house. Если вы работаете с данными, то вы должны знать один из 3х форматов delta, iceberg, hudi.

Реально 2 доминируют Delta развивается databricksом, Iceberg сам по себе хорош и популярен.
8❤‍🔥2💯1
Pytup в Нижнем Новгороде 1 июня

Вас ждёт большая конференция по Python-разработке Pytup.

В программе — выступления спикеров, новости языка, актуальные кейсы экспертов и, конечно, нетворкинг.

Узнаете, как создать платформу для обработки данных в вашей IT-компании или микросервис обработки геометрических данных. А ещё послушаете крутые доклады, получите ответы на вопросы и пообщаетесь со спикерами и коллегами.

Зарегистрироваться на Pytup! 💛
🗿14
Опубликовал блог пост про подготовку к поиску работы при переезде или иммиграции. Так же подойдет к тем, кто только начинает учится и не понимает, куда двигаться и что учить.
👨‍💻28❤‍🔥6👾2🗿1
Сколько я стою на рынке ИТ? - Один из самых частых запросов у ИТ-шников.
Куда мне расти в ИТ, какие карьерные треки могут быть?

Круто, что есть каналы, к примеру, канал Ольги Романовой, в котором показывают реальные офферы, уровень зарплат на рынке ИТ и лайфхаки по составлению резюме, в т.ч. для продактов

Зацените:
— как получить 5 офферов за 2 месяца, в т.ч. на 500к
Оффер в 21 год без высшего образования на 250к
Оффер на 750к +

Специально для подписчиков моего канала Ольга с командой проведет несколько карьерных диагностик, оценит вашу стоимость на рынке и подскажет первые шаги для достижения карьерной цели. Детали под этим постом (там вообще оффер на 1 млн!)
🗿25🍌12🐳61🙈1
Реально так и есть, сколько у народа сертификатов всяких, но нет реального опыта.

Намного хуже, когда вы платите не 15$ за udemy курс, а платите 30к-50к$ за Masters программу по аналитике, и часто вы в такой же ситуации.

Вроде знания и диплом есть, а как применить их не понятно. В Ванкувере есть 2 универа SFU, UBC и у обоих есть такие программы и я встречал много студентов (у меня даже есть в Surfalytics), кому очень сложно найти работу, потому-то они часто учат теорию в отрыве от реальности, у них нет контекста. И чем дальше, тем сложней понять, что нужно учить, что говорить на собеседовании, и что писать в резюме.

У кого сколько сертификатов?

У меня был знакомый у кого было больше 115 сертификатов, и он продолжал учиться и сдавать еще больше. Вопрос всегда один и тот же, если такой умный, то почему такой бедный🍟
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4311🤷‍♀6🙈6💯2
Интересный коллаб Snowflake + Fabric.
🌭2
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшие Fast Track мероприятия:

• 3–7 июня — для технических менеджеров и Crowd Solutions Architect, офер за 5 дней в команду Crowd.

• 8–9 июня — для дата-инженеров, офер за 2 дня в DWH команды Маркета.

Зарегистрироваться
🗿21🙈11❤‍🔥1🐳1🌚1🌭1👾1
Уже пару месяцев как закончил книгу "Freakonomics" (в русском переводе "Фрикономика"), написанная Стивеном Левиттом и Стивеном Дабнером, которая исследует экономические принципы в нестандартных ситуациях и предлагает неожиданные объяснения повседневных явлений.

Основные идеи книги включают анализ экономических и социальных проблем с применением нетрадиционных подходов и методов.

Основные идеи книги:

Экономика всего вокруг: Левитт и Дабнер показывают, что экономические принципы можно применить к любым аспектам жизни, от преступности до образования.

Влияние стимулов (incentives): Главная идея книги — поведение людей сильно зависит от стимулов, которые они получают.

Неожиданные связи: Выявляют неожиданные связи между, казалось бы, несвязанными явлениями, такими как снижение уровня преступности и легализация абортов.

Использование данных: Важность анализа данных и использования статистики для получения достоверных выводов.

Для меня книга особенно запомнилась примерами стимулов (incentives).

- Экономические стимулы: Это финансовые или материальные выгоды, которые мотивируют людей к определенным действиям.
- Социальные стимулы: Это общественные и культурные факторы, которые влияют на поведение.
- Моральные стимулы: Это внутренние убеждения и ценности, которые мотивируют людей к действиям, основанным на их этических принципах.

Стимулы очень хорошо ложатся на нашу работу.
Почему новые инженеры работают лучше, чем старые?(кто уже 1-2 года в команде, вот сегодня например уволили такого человека, хотя я сам был таким человеком в прошлом году и скоро расшарю свой PIP документ).

Почему одни инженеры работают хорошо, а другие плохо? (Ведь часто дело не в зарплате)

Почему одни активно учатся и развиваются, а другие нет?

Почему одни пишут хорошие комментарии, а другие пишут плохие?

У меня теперь на любой вопрос 1й ответ это incentive. Вообще вся движуха рабочая это про incentives. Либо они есть, либо нет.

Мне кажется менеджеры особенно тщательно стараются придумать “стимулы” для своих команд🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥28🙈1💘1
Что такое PIP? Иногда это называют PAP. Многие боятся этой аббревиатуры, ведь если вы с ней столкнулись, значит, от вас начинают избавляться и "нежно" увольнять.

PIP (Performance Improvement Plan) или PAP (Performance Action Plan) — это план улучшения производительности. Обычно он длится 4-6 недель, в течение которых вам говорят, что вы плохо выполняете свою работу, и вас начинают ежедневно микроменеджить. На этот срок ваш менеджер пишет план, описывает ваши "зоны роста" и проекты, которые вы должны завершить.

В Amazon, в 90% случаев, человек с PIP будет уволен, но некоторые проходят его успешно. В любом случае, это достаточно стрессовое мероприятие. Часто это случается не из-за плохой работы, а из-за плохого взаимопонимания с менеджером.

Так было и у меня. Я прикрепил свой реальный PAP (в комментарий), который длился 6 недель. Это было стрессово, но я все равно прошел его. Кстати, его написал менеджер, который до этого много лет работал в Facebook и Lyft. Так что это хороший шаблон, если вы решите кого-нибудь уволить.

Несмотря на то, что я его прошел, я не согласен с ним и считаю его несправедливым. Думаю, так все считают, когда попадают на PIP. Тем не менее, я стал жаловаться HR, что это было незаслуженно, на что получил ответ от HR: "мы тут власть, что хотим, то и делаем". Я попросил меня уволить и дать мне 2 зарплаты, на что HR сказал: "мы тебя не можем уволить, поезд ушел, ты прошел PAP, и теперь работай или сам уходи…". В итоге я сам и ушел.

Самое интересное, что у меня был конфликт с директором DE, и поэтому я получил PIP. Я позволял себе слишком много называть вещи своими именами и критиковать решения директора DE и VP data. То есть я был токсичным, но с другой стороны я говорил правду.

В западных компаниях правду не любят, нужно всегда быть "nice" и "kind" к окружающим. Думаю, тут много людей из западных компаний, которые могут рассказать смешные истории про это или про свой опыт с PIP/PAP.

Так вот, когда я ушел, через месяц директора понизили до Principal DE, а через 2 месяца он уволился. И все было очень красиво сделано тем же менеджером из FB/Lyft. Шах и мат, можно сказать. Получается, я был прав всегда, и действительно мой PAP был незаслуженным, но в корпорациях очень четкая вертикаль власти, и не стоит пытаться перечить начальству, если не хотите быть токсичным.

PS: Прямо вчера уволили одного человека в текущей компании. Хотя недавно он говорил мне, что руководство не понимает, что делает, и жаловался на все. Я даже не удивился, это был вопрос времени.
🗿36❤‍🔥23💯145🤷‍♂3
Замечательная картинка от LakeFS - State of DE 2024.

Очень много инструментов. Каждый год инструментов становится все больше, а сути все меньше.

Хотя по-прежнему пишут SQL-запросы, делают slice and dice, drill down, анализируют dimensions и measures.

Я сам не знаком со многими инструментами и надеюсь, что мне не придется разбираться в их документации и tutorial'ах.

Для опытных людей проблем нет, а для тех, кто хочет начать успешную карьеру в data и «купить SQL-wagon» (если вы понимаете, о чем я😉), возможно, будет много сложностей.

С одной стороны, вы хотите самостоятельно учиться, но с другой стороны баррикад – огромные маркетинговые бюджеты, которые обещают вам либо профессию, либо инструмент, который сам все сделает.

Поэтому лучше экономить время и стараться общаться с более опытными коллегами, посещать различные мероприятия и спрашивать, кто чем занимается, как к этому пришли и какие планы дальше.

Что еще полезно?
❤‍🔥40🗿62🙈2
Давненько у меня не было 🔥

Если раньше софт был неповоротливый и большой типа Enterprise BI - SAP Business Objects, который при обновлении может сломаться, если например интернет отвалится во время установки. У меня было такой случай https://t.me/rockyourdata/4385 и там же я описал про Looker, который я тоже сломал.

Вчера я решил попробовать что-то новое. У нас есть GCP Kubernetes engine, и с помощью helm charts там задеплоено вообще все. В моем случае у нас был очень интересный кейс использования Airbyte backend базы данных. Исторически эта база данных использовалась как часть хранилища данных. Удобно же, Airbyte читает данные из Amplitude и пишет сама в себя, и потом с помощью Trino мы можешь кверить данные. Но не тут-то было, одна из таблиц этой внутренней базы данных содержит все пароли в открытом доступе и доступна через BI слой (metabase).

Если вы не знаете, что такое Airbyte - то это набор конвекторов, например извлечь данные из SalesForce и загрузить в хранилище данных. Платный аналог Fivetran, бесплатный Metabase. Такие экстракторы необходимы, если вы работаете с dbt.

В общем очевидно, что надо фиксить пароли, и решение было добавить Google Cloud Secrets, чтобы туда сохранялись все пароли, согласно документации.

У нас есть staging среда, которая уже давно сломана. Сам я пока не очень с helm charts, вроде бы идея простая, это просто YAML файлы, которые описывают Kubernetes, но выполняются они через Ansible. Ох уж эти DevOps штуки и Open Source, каждый раз, как в первый класс.

В общем по классике, часов в 11 вечера, перед сном, я решил попробовать первый раз что-нибудь сделать с Airbyte Staging, но случайно выполнил команды, которая просто деплоит helm charts для Production.

Это чудо, начало скачивать обновления, новую версию Airbyte, новую версию helm charts, и все это деплоить, а там наверно 6 разных контейнеров с Airbyte сервисам. Ну и конечно все упало. Очевидно, что это проблема, потому что мы же используем Airbyte db как хранилище данных для важной отчетности, и реплицируем данные, которые тоже важны для отчетности.

В итоге до 2х ночи с помощью ChatGPT4o я изучал Airbyte, Helm Charts, GCP Kubernetes Engine. И действительно, выучил много, больше, чем за последние 4 месяца.

Проблем было много:
- Часть проблем решил, откатив helm chart Revision к последней успешной

- Потом оказалось, что Airbyte используют параметры в ConfigMap и Secrets, которые не хранятся в helm-charts, и были прописаны вручную и при обновлении заменены.

Изначальные параметры и их значения пропали, и вообще он почему-то хотел S3 параметры, а не GCP. Методом научного тыка, с помощью CLI “kubectl” я смог с 40го раза подобрать нужную конфигурацию параметров и все Pods запустились

- Даже смог залогиниться, но внутри ничего не работало. Оказалось, что это чудо при обновлении еще стал писать в backend базу данных (GCP CloudSQL) и последний штрих был откатить базу, но это уже kudos моему коллеге на Филиппинах, у него как раз был день. Узнал я про это утром, хотя когда шел спать, уже ментально был готов закончить работу в этой компании🙃 А утром оказалось, что все работает. Значит еще не время.

В общем, такой вот вечер из жизни дата инженера. Я думаю многим вообще не понятно, про что я пишу. Если честно, мне самому не очень понятно. В этом и заключается работа инженера, чтобы разобраться, сломать, починить. Желательно знать еще best practices.

Тем не менее получен ценный опыт, еще одна история про продакш. Можно наверно, сказать - “если я ломаю продакшн, значит я живу работаю”.

Теперь очевидные вещи:
- всегда делайте back up
- не делайте update критических вещей вечером
- оцените риски, вы готовы потерять работу? (Это конечно крайне сложно, обычно это норм - ломать, чинить, учится. Но если вас хотят скинуть или посадить на PIP, то самое то)
- лучше делать такие вещи вместе с коллегой, у кого есть опыт в этом
- неплохо бы попрактиковаться на “кошках”, у меня так и лежат в закладках курсы по Kubernetes + ansible + helm charts, я даже в самолет себе загрузил на прошлой неделе, но смотрел сериал Fallout в итоге😝
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥27🙈20🌚2👾1
И если ответить на вопрос почему так случилось?
- “Everything fails, all the time” is a famous quote from Amazon’s Chief Technology Officer Werner Vogels.
- Murphy's law is an adage or epigram that is typically stated as: "Anything that can go wrong will go wrong."

Вообще это было ожидаемо. Когда мы приходим на проект, где много open-source, прошлой команды нет, документации нет, то вы обязательно окажетесь в такой ситуации. Получается Airbyte это бесплатная альтернатива платного Fivetran, но оказалось:
- нет документации как это было запущено
- мы до сих пор на старой версии, которой уже год, и не можем обновить
- изначально кто внедрял Airbyte не имел опыта инжинирига данных, а был DevOps, поэтому данные писались в backend Airbyte
- все пароли в открытом доступе для всей компании (fintech) уже довольно давно

Часто платные решения оказываются более эффективными, дешевыми и безопасными по сравнения с Open Source.

Поэтому, всегда настаивайте на:
- хорошей документации всего и вся
- playbooks - как обновлять и поддерживать
- обновляйтесь чаще, легче обновиться, когда нет breaking changes
- design и decisions документы
- дайте время команде на обучение инструменту (курсы, тренинги)

Ну и конечно ходите по собеседованиям, а то так что-нибудь обновите и будет потом пол года без работы🤣
💯238🙈8👾1
Ладно, сегодня пятница, значит с сыном и его друзьями рубимся в Fortnite (сегодня новый сезон как раз Mad Max + Fallout)+ местный сидр. Стресс запить после Airbyte, так сказать.
❤‍🔥85🫡42🤷‍♀1
Media is too big
VIEW IN TELEGRAM
Презентация sqlwagon новой книги Azure Data Factory Cookbook 2nd edition. (На английском, это вообще то будет для Linkedin)
❤‍🔥62🦄14🍾7🙉1
Forwarded from Reveal the Data
Внутренняя аналитика как продукт
Завтра обсудим с Андреем из канала @productdo как использовать продуктовые подходы для внутренних продуктов, в том числе к аналитике и дашбордам. Это забавно, но аналитики не всегда анализируют результаты своей работы. Вот такой вот каламбур =)

Покажу какие метрики мы использовали в Яндекс Go для дашбордов. И очень интересно узнать про опыт Андрея — он менеджер внутренней платформы в Booking.

Трансляция
YouTube канал ребят — https://www.youtube.com/@ProductDo/streams

Когда
30 мая, четверг, 18:30 по Мск
#выступление
❤‍🔥22🙈4
🙈109❤‍🔥24🌚10💯8👾2🙊1