Инжиниринг Данных
19.2K subscribers
1.5K photos
24 videos
175 files
2.79K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, angel investor.

Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Download Telegram
Интересный анализ от Financial Times про возраст для первого ребенка. В возрасте 34 года у женщин 0 детей.

Когда в 2016 году мы переехали в Канаду я сразу обратил внимание на коллег за 30 у кого нет в планах детей, и коллеги за 35 планируют первого ребенка. Частые поездки в Сиэтл лишь подтвердили тренд, в которым отдают предпочтение собакам вместо детей. (Собак я тоже люблю, больше чем кошек, если что☺️), дискуссию лишь про детей. И это все было еще до лгбт+ маркетинга.

Причины были банальны. Чтобы иметь детей, один из родителей должен не работать и желательно уже иметь ипотеку. Но чтобы это позволить, нужно выплатить кредит за образование и найти хорошую работу. Родители как правило выгоняют детей после 18 и дети уже не ожидают помощи от родителей и сами решают свои финансовые проблемы и растят детей, если конечно к 40 годам созреют.

Это лишь мое наблюдение за 9 дет в Канаде и США. Как в России мне понятно, и я там уже отношусь к многодетной семье с 3мя детьми.

В Канаде и США все наоборот, дети это очень дорого, возможно поэтому многие ограничиваются собаками и кошками.

Как там дела в Европе, в Штатах, Канаде и других странах?

PS мой совет всегда простой - взять ипотеку, завести детей и дальше уже как-нибудь все сложится:)
Please open Telegram to view this post
VIEW IN TELEGRAM
Что мы знаем про продуктовых аналитиков в Авито?

— Быстро растут и развиваются внутри компании;
— Многое автоматизируют, обучают модели и прогнозируют;
— Постоянно запускают эксперименты, строят фреймворки и математические модели;
— Каждый работает в своей продуктовой команде, но не теряет связь с аналитиками из других направлений.

Хочешь также?
Подавай заявку на Weekend Offer до 4 апреля, приходи интервью и получай оффер!
🚀
Анонс Вебинара: "Разработка data приложений на DuckDB"🚀

Давненько не было.... уверен ждали)))

📅 Дата вебинара 4 апреля в 7 вечера по мск

🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙

🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share

Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.

🔍 Что мы обсудим на вебинаре:

🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.

👨‍💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.


#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Обновление платформы YTsaurus

В новой версии YTsaurus Server 23.2.0 оптимизировали подсистему обработки данных, добавили OAuth‑аутентификацию и расширили возможности языка запросов динамических таблиц. Плюсом — еще несколько обновлений других частей платформы.

Подробности — в блоге.
Дашборд должен быть всегда простой, еще бы неплохо, чтобы был понятный.

Заметил интересный момент, пока BI люди трудятся над дашбордами, выбирают цвет, шрифт, толщину линии, ребята из devops, platform и тп используют инструменты для observation (мониторинга), чтобы быстро своять дашборд, который будет простой и понятный. Не изобретают велосипед с типом графика и цветовой палитрой в цвет того компании.

Как вообще обстоят дела с визуализацией? Тема как-то ушла на зданий план в последнее время. Ни новый промывных фич, ни супер-пупер best practices. Поделитесь в комментариях.
Оффер за 2 дня — легко!

🙂 Регистрируйся на Weekend Offer Лиги Ставок для продуктовых аналитиков.

20 и 21 апреля мы проведем технические собеседования и познакомимся с командами. Все этапы будут проходить в zoom. Основная часть — в субботу, а знакомство с продактами — в воскресенье. Если случится метч, ты получишь оффер до конца дня!

Как у нас все устроено? Переходи по ссылке 😍

Мы ждем тебя в команде!
Please open Telegram to view this post
VIEW IN TELEGRAM
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее Fast Track мероприятия:

• 13–14 апреля — Fast Track для дата-аналитиков со знанием SQL и Python, офер за 2 дня в команду Фудтеха.

Зарегистрироваться
Хорошая статья про партиции - Iceberg Partitioning and Performance Optimizations in Trino. В данном случае на примере Trino. И заодно сравнение Hive (традиционный подход для Spark, Trino и других инструментов озера данных) и Iceberg (популярный формат данных для lakehouse).

Я сам в послденее время глубоко в оптимизации Trino, который живет на GCP Kubernetes. И пока набиваю шишки связанные с OUT OF MEMORY (OOM) ошибками. Вообще решение очень удобное, особенно для стартапов.
Каждый год VC FirstMark публикует список инструментов для работы с данными из разных категорий.

Каждый год список растет.

Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering, BI и тп) прошел, и все сейчас делают AI. Что в общем-то очевидно.

Вопрос, что делать? Тема уже на раз обсуждалось, и как обычно ответ простой - надо быть ближе к “деньгами”, то есть приносить ценность организации, клиентам, коллегам, учиться (grow mindset) и особенно искать точки соприкосновения между BI/Data Engineering и GenAI и смотреть куда все движется.

На вопрос, что сейчас делают компании с GenAI у меня есть ответ, сам уже видел в нескольких больших S&P500 компаниях - фокус на эффективность, автоматизацию, повышения качества и безопасности. Пока еще на стадии PoC.

Конкретно для инженеров пока ограничивается использованием Co-Pilot как помошником и повышения эффективности.

Еще несколько лет мы точно будем не заменимы🚣 (не претендую на экспертное мнение, если чЕ🍟)

А как вам кажется?

https://mattturck.com/mad2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
Изучил вопрос вакансий и недвижимости в Швейцарии https://youtu.be/5pGVEnCLxLk.

Кто-то собирает ложки и рюмки из разных стран, а я теперь пробую сидр 🍺 и заодно изучаю рынок страны, откуда сидр привезли. Друзья привезли из Швейцарии сидр Moehl, и я изучил рынок. Еще оказалось, что товарищ оттуда написал мне и рассказал про свои доходы и расходы.

Вот как обычно мои заметки:

🏡По стране:
Весь движ в Женеве и Цюрихе, причем в Женеве на английском гораздо больше вакансий 🌍.
Судя по вакансиям и количеству заявлений, у них там голод по дата-инженерам 👨‍💻.
Работа в основном офисная или гибридная.
Мало вакансий на позиции Senior.
Ипотека 2,5%, но, похоже, там никто не покупает, и все предпочитают аренду 🏠.
Налоги ниже, чем в Канаде и США 💰.
Много контрактных вакансий 📄.

🛠По технологиям:
Очень много Microsoft и on-premise решений 💻.
Есть много современных вакансий с облачными технологиями, Databricks, BigQuery .
Обязательно знание DevOps для инженера данных .
Power BI доминирует.

🏦По зарплате:
Очень мало вакансий с указанием зарплатной вилки.
Из того, что есть - 120к-140к франков, и судя по местному калькулятору, это 7-8т на руки (но это не Senior позиции).

От товарища информация:
Контракт на 100+ франков в час.
13т франков в месяц, по калькулятору налогов это в год больше 230т франков, что считается высокой зарплатой.
Аренда 2500 франков.
Страховка 700 франков на человека.

PS как обычно любая иммиграция связана с двумя основными вещами.

Первая очень простая - это скилы, которые можно выучить и подтянуть.

Скилы важны трех типов (которые я закрываю в Surfalytics:
1. Технические - инструменты, подходы (hard skills)
2. Коммуникация и коллаборация с коллегами (soft skills)
3. Навык прохождения собеседования (story telling😃)

А вот второй момент уже не простой - получение рабочей визы и легализация. Тут все зависит от страны и надо общаться с теми, кто уже прошел процесс.
Yandex Cloud запустила программу сертификации для специалистов по облачным технологиям. Сертификат Yandex Cloud Certified Engineer Associate подтверждает знания и навыки в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг. Онлайн-тестирование состоит из 65 вопросов. Для получения сертификата нужно набрать 70% или более правильных ответов. Экзамен соответствует международным стандартам и проводится с применением ИИ для прокторинга.

Первый экзамен пройдет 11 апреля – записаться можно по ссылке.
How Apache Spark performs a fast count using the parquet metadata - хорошая статья для дата инженера.

Ведь, не всегда нужно прочитать полностью весь датасет, что может быть дорого, но можно использовать метанные, как например, в этой статье.
Больше конверсий для рекламодателей — больше доход издателей

В Yandex Mobile Ads SDK 7 появились новые возможности для монетизации приложений. Во-первых, тестируется новый рекламный формат «Лента» — это десятки объявлений в одном месте. Пока формат доступен в бета-режиме для приложений на Android.

Во-вторых, для полноэкранных форматов добавили новые механики:

🔸 AdPod — показ нескольких объявлений в одном рекламном месте.
🔸 EndCard — интерактивный экран-пэкшот в конце объявления.
🔸 SKOverlay (для iOS) — рекламируемое приложение можно установить прямо из объявления.

Для Android добавили дебаг панель, это будет полезно для отладки рекламы в приложении.
Недавно я писал про MAD 2024. Так же есть и видео где обсуждают текущую ситуацию на рынке и куда все идет - Matt Turck - The 2024 MAD Landscape (Special Show)

Matt Turck joins us for a special chat about the newly released 2024 MAD (ML, AI, and Data) Landscape. There's a TON happening at light speed in the AI and data space right now, and Matt and the FirstMark crew have done a phenomenal job keeping a pulse on things.

Другое видео вам может понравится про создание консалтинга или переквалификацию в консультанта или контрактера - Starting An Independent Consulting Company In 2024

Я про освой опыт консалтинга уже рассказывал - Опыт создания аналитической консалтинг-компании в Северной Америке, как ни странно, компания еще существуют и многим помогает получить “первый опыт” дата профессии и главное его подтверждение🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
Единственные papers я читаю это про современные хранилища или аналитические решения. Вот вам про Trino (PrestoDB): https://trino.io/Presto_SQL_on_Everything.pdf


Abstract
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.


Вообще было бы классно его добавить в Yandex Cloud/VK Cloud. Там какие альтернативы для SQL движка поверх storage?
Как классно качать свою карьеру?

Все просто, учимся, собеседуемся, делаем пет проекты и вообще занимаем проактивную позицию.

Никита (я про него писал, про его success story из Бизнес Аналитика в Analytics Engineer) своим примером показывает, что возможно все.

Недавно он нам показывал свой проект в Surfalytics, который он сделал для Paradime (ребята взяли dbt core и стали продавать дешевле dbt labs🤦‍♂️). В проекте он построил решение на Snowflake, dbt, sygma, hex и наковырял insights по NBA data set.

И Paradime написали блог про проект Никиты https://www.paradime.io/blog/nikita-volynets-dbt-and-toronto-raptors

Вообще это хорошая тактика использовать “маленьких” вендоров, чтобы пиарить их, а они будут пиарить вас. Я сам раньше так через консалтинг делал с Matillion ETL и SQLdbm. Хороший охват аудитории.
Please open Telegram to view this post
VIEW IN TELEGRAM