Forwarded from Data & IT Career (Николай Крупий)
Что у вас на работе используется для окрестрации ETL’ек?
#опросы
#опросы
Anonymous Poll
63%
AirFlow 😎
5%
Prefect / Dagster / Mage и пр хипстота 🤓
4%
Oozie / Luigi / Azkaban etc. 😴
6%
SSIS + MSS jobs 😁
7%
Какой-нибудь олдовый тяжеловес типа Informatica, ODI, что там бывает… 🫠
9%
cron 🙈
5%
Что-то облачное проприетарное 🧐
13%
Свой велосипед 😅
5%
Другое 😏
7%
Не используется ничего такого 🙉
Интересный анализ от Financial Times про возраст для первого ребенка. В возрасте 34 года у женщин 0 детей.
Когда в 2016 году мы переехали в Канаду я сразу обратил внимание на коллег за 30 у кого нет в планах детей, и коллеги за 35 планируют первого ребенка. Частые поездки в Сиэтл лишь подтвердили тренд, в которым отдают предпочтение собакам вместо детей. (Собак я тоже люблю, больше чем кошек, если что☺️ ), дискуссию лишь про детей. И это все было еще до лгбт+ маркетинга.
Причины были банальны. Чтобы иметь детей, один из родителей должен не работать и желательно уже иметь ипотеку. Но чтобы это позволить, нужно выплатить кредит за образование и найти хорошую работу. Родители как правило выгоняют детей после 18 и дети уже не ожидают помощи от родителей и сами решают свои финансовые проблемы и растят детей, если конечно к 40 годам созреют.
Это лишь мое наблюдение за 9 дет в Канаде и США. Как в России мне понятно, и я там уже отношусь к многодетной семье с 3мя детьми.
В Канаде и США все наоборот, дети это очень дорого, возможно поэтому многие ограничиваются собаками и кошками.
Как там дела в Европе, в Штатах, Канаде и других странах?
PS мой совет всегда простой - взять ипотеку, завести детей и дальше уже как-нибудь все сложится:)
Когда в 2016 году мы переехали в Канаду я сразу обратил внимание на коллег за 30 у кого нет в планах детей, и коллеги за 35 планируют первого ребенка. Частые поездки в Сиэтл лишь подтвердили тренд, в которым отдают предпочтение собакам вместо детей. (Собак я тоже люблю, больше чем кошек, если что
Причины были банальны. Чтобы иметь детей, один из родителей должен не работать и желательно уже иметь ипотеку. Но чтобы это позволить, нужно выплатить кредит за образование и найти хорошую работу. Родители как правило выгоняют детей после 18 и дети уже не ожидают помощи от родителей и сами решают свои финансовые проблемы и растят детей, если конечно к 40 годам созреют.
Это лишь мое наблюдение за 9 дет в Канаде и США. Как в России мне понятно, и я там уже отношусь к многодетной семье с 3мя детьми.
В Канаде и США все наоборот, дети это очень дорого, возможно поэтому многие ограничиваются собаками и кошками.
Как там дела в Европе, в Штатах, Канаде и других странах?
PS мой совет всегда простой - взять ипотеку, завести детей и дальше уже как-нибудь все сложится:)
Please open Telegram to view this post
VIEW IN TELEGRAM
Что мы знаем про продуктовых аналитиков в Авито?
— Быстро растут и развиваются внутри компании;
— Многое автоматизируют, обучают модели и прогнозируют;
— Постоянно запускают эксперименты, строят фреймворки и математические модели;
— Каждый работает в своей продуктовой команде, но не теряет связь с аналитиками из других направлений.
Хочешь также?
Подавай заявку на Weekend Offer до 4 апреля, приходи интервью и получай оффер!
— Быстро растут и развиваются внутри компании;
— Многое автоматизируют, обучают модели и прогнозируют;
— Постоянно запускают эксперименты, строят фреймворки и математические модели;
— Каждый работает в своей продуктовой команде, но не теряет связь с аналитиками из других направлений.
Хочешь также?
Подавай заявку на Weekend Offer до 4 апреля, приходи интервью и получай оффер!
Анонс Вебинара: "Разработка data приложений на DuckDB"
Давненько не было.... уверен ждали)))
📅 Дата вебинара 4 апреля в 7 вечера по мск
🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙
🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share
Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.
🔍 Что мы обсудим на вебинаре:
🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.
👨💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.
#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Разработка data приложений на DuckDB
🎙Спикер - Роман Зыков. Очень крутой спец, который уже дважды выступал у нас 🎙Ссылка на презентацию вебинара: https://drive.google.com/file/d/1bkyyjmWMZ9ebT...
Дашборд должен быть всегда простой, еще бы неплохо, чтобы был понятный.
Заметил интересный момент, пока BI люди трудятся над дашбордами, выбирают цвет, шрифт, толщину линии, ребята из devops, platform и тп используют инструменты для observation (мониторинга), чтобы быстро своять дашборд, который будет простой и понятный. Не изобретают велосипед с типом графика и цветовой палитрой в цвет того компании.
Как вообще обстоят дела с визуализацией? Тема как-то ушла на зданий план в последнее время. Ни новый промывных фич, ни супер-пупер best practices. Поделитесь в комментариях.
Заметил интересный момент, пока BI люди трудятся над дашбордами, выбирают цвет, шрифт, толщину линии, ребята из devops, platform и тп используют инструменты для observation (мониторинга), чтобы быстро своять дашборд, который будет простой и понятный. Не изобретают велосипед с типом графика и цветовой палитрой в цвет того компании.
Как вообще обстоят дела с визуализацией? Тема как-то ушла на зданий план в последнее время. Ни новый промывных фич, ни супер-пупер best practices. Поделитесь в комментариях.
Оффер за 2 дня — легко!
🙂 Регистрируйся на Weekend Offer Лиги Ставок для продуктовых аналитиков.
20 и 21 апреля мы проведем технические собеседования и познакомимся с командами. Все этапы будут проходить в zoom. Основная часть — в субботу, а знакомство с продактами — в воскресенье. Если случится метч, ты получишь оффер до конца дня!
Как у нас все устроено? Переходи по ссылке😍
Мы ждем тебя в команде!
20 и 21 апреля мы проведем технические собеседования и познакомимся с командами. Все этапы будут проходить в zoom. Основная часть — в субботу, а знакомство с продактами — в воскресенье. Если случится метч, ты получишь оффер до конца дня!
Как у нас все устроено? Переходи по ссылке
Мы ждем тебя в команде!
Please open Telegram to view this post
VIEW IN TELEGRAM
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее Fast Track мероприятия:
• 13–14 апреля — Fast Track для дата-аналитиков со знанием SQL и Python, офер за 2 дня в команду Фудтеха.
Зарегистрироваться
Ближайшее Fast Track мероприятия:
• 13–14 апреля — Fast Track для дата-аналитиков со знанием SQL и Python, офер за 2 дня в команду Фудтеха.
Зарегистрироваться
Хорошая статья про партиции - Iceberg Partitioning and Performance Optimizations in Trino. В данном случае на примере Trino. И заодно сравнение Hive (традиционный подход для Spark, Trino и других инструментов озера данных) и Iceberg (популярный формат данных для lakehouse).
Я сам в послденее время глубоко в оптимизации Trino, который живет на GCP Kubernetes. И пока набиваю шишки связанные с OUT OF MEMORY (OOM) ошибками. Вообще решение очень удобное, особенно для стартапов.
Я сам в послденее время глубоко в оптимизации Trino, который живет на GCP Kubernetes. И пока набиваю шишки связанные с OUT OF MEMORY (OOM) ошибками. Вообще решение очень удобное, особенно для стартапов.
Starburst
Iceberg Partitioning and Performance Optimizations in Trino
With big data, partitioning is crucial for performance. Get a query that takes minutes or even hours down to seconds!
Каждый год VC FirstMark публикует список инструментов для работы с данными из разных категорий.
Каждый год список растет.
Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering, BI и тп) прошел, и все сейчас делают AI. Что в общем-то очевидно.
Вопрос, что делать? Тема уже на раз обсуждалось, и как обычно ответ простой - надо быть ближе к “деньгами”, то есть приносить ценность организации, клиентам, коллегам, учиться (grow mindset) и особенно искать точки соприкосновения между BI/Data Engineering и GenAI и смотреть куда все движется.
На вопрос, что сейчас делают компании с GenAI у меня есть ответ, сам уже видел в нескольких больших S&P500 компаниях - фокус на эффективность, автоматизацию, повышения качества и безопасности. Пока еще на стадии PoC.
Конкретно для инженеров пока ограничивается использованием Co-Pilot как помошником и повышения эффективности.
Еще несколько лет мы точно будем не заменимы🚣 (не претендую на экспертное мнение, если чЕ🍟 )
А как вам кажется?
https://mattturck.com/mad2024/
Каждый год список растет.
Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering, BI и тп) прошел, и все сейчас делают AI. Что в общем-то очевидно.
Вопрос, что делать? Тема уже на раз обсуждалось, и как обычно ответ простой - надо быть ближе к “деньгами”, то есть приносить ценность организации, клиентам, коллегам, учиться (grow mindset) и особенно искать точки соприкосновения между BI/Data Engineering и GenAI и смотреть куда все движется.
На вопрос, что сейчас делают компании с GenAI у меня есть ответ, сам уже видел в нескольких больших S&P500 компаниях - фокус на эффективность, автоматизацию, повышения качества и безопасности. Пока еще на стадии PoC.
Конкретно для инженеров пока ограничивается использованием Co-Pilot как помошником и повышения эффективности.
Еще несколько лет мы точно будем не заменимы
А как вам кажется?
https://mattturck.com/mad2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
Изучил вопрос вакансий и недвижимости в Швейцарии https://youtu.be/5pGVEnCLxLk.
Кто-то собирает ложки и рюмки из разных стран, а я теперь пробую сидр 🍺 и заодно изучаю рынок страны, откуда сидр привезли. Друзья привезли из Швейцарии сидр Moehl, и я изучил рынок. Еще оказалось, что товарищ оттуда написал мне и рассказал про свои доходы и расходы.
Вот как обычно мои заметки:
🏡По стране:
Весь движ в Женеве и Цюрихе, причем в Женеве на английском гораздо больше вакансий 🌍.
Судя по вакансиям и количеству заявлений, у них там голод по дата-инженерам 👨💻.
Работа в основном офисная или гибридная.
Мало вакансий на позиции Senior.
Ипотека 2,5%, но, похоже, там никто не покупает, и все предпочитают аренду 🏠.
Налоги ниже, чем в Канаде и США 💰.
Много контрактных вакансий 📄.
🛠По технологиям:
Очень много Microsoft и on-premise решений 💻.
Есть много современных вакансий с облачными технологиями, Databricks, BigQuery .
Обязательно знание DevOps для инженера данных .
Power BI доминирует.
🏦По зарплате:
Очень мало вакансий с указанием зарплатной вилки.
Из того, что есть - 120к-140к франков, и судя по местному калькулятору, это 7-8т на руки (но это не Senior позиции).
От товарища информация:
Контракт на 100+ франков в час.
13т франков в месяц, по калькулятору налогов это в год больше 230т франков, что считается высокой зарплатой.
Аренда 2500 франков.
Страховка 700 франков на человека.
PS как обычно любая иммиграция связана с двумя основными вещами.
Первая очень простая - это скилы, которые можно выучить и подтянуть.
Скилы важны трех типов (которые я закрываю в Surfalytics:
1. Технические - инструменты, подходы (hard skills)
2. Коммуникация и коллаборация с коллегами (soft skills)
3. Навык прохождения собеседования (story telling😃)
А вот второй момент уже не простой - получение рабочей визы и легализация. Тут все зависит от страны и надо общаться с теми, кто уже прошел процесс.
Кто-то собирает ложки и рюмки из разных стран, а я теперь пробую сидр 🍺 и заодно изучаю рынок страны, откуда сидр привезли. Друзья привезли из Швейцарии сидр Moehl, и я изучил рынок. Еще оказалось, что товарищ оттуда написал мне и рассказал про свои доходы и расходы.
Вот как обычно мои заметки:
🏡По стране:
Весь движ в Женеве и Цюрихе, причем в Женеве на английском гораздо больше вакансий 🌍.
Судя по вакансиям и количеству заявлений, у них там голод по дата-инженерам 👨💻.
Работа в основном офисная или гибридная.
Мало вакансий на позиции Senior.
Ипотека 2,5%, но, похоже, там никто не покупает, и все предпочитают аренду 🏠.
Налоги ниже, чем в Канаде и США 💰.
Много контрактных вакансий 📄.
🛠По технологиям:
Очень много Microsoft и on-premise решений 💻.
Есть много современных вакансий с облачными технологиями, Databricks, BigQuery .
Обязательно знание DevOps для инженера данных .
Power BI доминирует.
🏦По зарплате:
Очень мало вакансий с указанием зарплатной вилки.
Из того, что есть - 120к-140к франков, и судя по местному калькулятору, это 7-8т на руки (но это не Senior позиции).
От товарища информация:
Контракт на 100+ франков в час.
13т франков в месяц, по калькулятору налогов это в год больше 230т франков, что считается высокой зарплатой.
Аренда 2500 франков.
Страховка 700 франков на человека.
PS как обычно любая иммиграция связана с двумя основными вещами.
Первая очень простая - это скилы, которые можно выучить и подтянуть.
Скилы важны трех типов (которые я закрываю в Surfalytics:
1. Технические - инструменты, подходы (hard skills)
2. Коммуникация и коллаборация с коллегами (soft skills)
3. Навык прохождения собеседования (story telling😃)
А вот второй момент уже не простой - получение рабочей визы и легализация. Тут все зависит от страны и надо общаться с теми, кто уже прошел процесс.
YouTube
Switzerland Data Job Markets and Housing cost | Surfalytics Cider Testing
Explore the heart of Switzerland's tech landscape and lifestyle in our latest episode! We kick off with a delightful tasting of local Swiss cider from Moster...
Yandex Cloud запустила программу сертификации для специалистов по облачным технологиям. Сертификат Yandex Cloud Certified Engineer Associate подтверждает знания и навыки в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг. Онлайн-тестирование состоит из 65 вопросов. Для получения сертификата нужно набрать 70% или более правильных ответов. Экзамен соответствует международным стандартам и проводится с применением ИИ для прокторинга.
Первый экзамен пройдет 11 апреля – записаться можно по ссылке.
Первый экзамен пройдет 11 апреля – записаться можно по ссылке.
How Apache Spark performs a fast count using the parquet metadata - хорошая статья для дата инженера.
Ведь, не всегда нужно прочитать полностью весь датасет, что может быть дорого, но можно использовать метанные, как например, в этой статье.
Ведь, не всегда нужно прочитать полностью весь датасет, что может быть дорого, но можно использовать метанные, как например, в этой статье.
Больше конверсий для рекламодателей — больше доход издателей
В Yandex Mobile Ads SDK 7 появились новые возможности для монетизации приложений. Во-первых, тестируется новый рекламный формат «Лента» — это десятки объявлений в одном месте. Пока формат доступен в бета-режиме для приложений на Android.
Во-вторых, для полноэкранных форматов добавили новые механики:
🔸 AdPod — показ нескольких объявлений в одном рекламном месте.
🔸 EndCard — интерактивный экран-пэкшот в конце объявления.
🔸 SKOverlay (для iOS) — рекламируемое приложение можно установить прямо из объявления.
Для Android добавили дебаг панель, это будет полезно для отладки рекламы в приложении.
В Yandex Mobile Ads SDK 7 появились новые возможности для монетизации приложений. Во-первых, тестируется новый рекламный формат «Лента» — это десятки объявлений в одном месте. Пока формат доступен в бета-режиме для приложений на Android.
Во-вторых, для полноэкранных форматов добавили новые механики:
🔸 AdPod — показ нескольких объявлений в одном рекламном месте.
🔸 EndCard — интерактивный экран-пэкшот в конце объявления.
🔸 SKOverlay (для iOS) — рекламируемое приложение можно установить прямо из объявления.
Для Android добавили дебаг панель, это будет полезно для отладки рекламы в приложении.
Sostav
«Яндекс» представил новый набор библиотек Yandex Mobile Ads SDK 7
Теперь приложения можно монетизировать с помощью рекламного формата «Лента»
Недавно я писал про MAD 2024. Так же есть и видео где обсуждают текущую ситуацию на рынке и куда все идет - Matt Turck - The 2024 MAD Landscape (Special Show)
Matt Turck joins us for a special chat about the newly released 2024 MAD (ML, AI, and Data) Landscape. There's a TON happening at light speed in the AI and data space right now, and Matt and the FirstMark crew have done a phenomenal job keeping a pulse on things.
Другое видео вам может понравится про создание консалтинга или переквалификацию в консультанта или контрактера - Starting An Independent Consulting Company In 2024
Я про освой опыт консалтинга уже рассказывал - Опыт создания аналитической консалтинг-компании в Северной Америке, как ни странно, компания еще существуют и многим помогает получить “первый опыт” дата профессии и главное его подтверждение🚣
Matt Turck joins us for a special chat about the newly released 2024 MAD (ML, AI, and Data) Landscape. There's a TON happening at light speed in the AI and data space right now, and Matt and the FirstMark crew have done a phenomenal job keeping a pulse on things.
Другое видео вам может понравится про создание консалтинга или переквалификацию в консультанта или контрактера - Starting An Independent Consulting Company In 2024
Я про освой опыт консалтинга уже рассказывал - Опыт создания аналитической консалтинг-компании в Северной Америке, как ни странно, компания еще существуют и многим помогает получить “первый опыт” дата профессии и главное его подтверждение
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Инжиниринг Данных
Каждый год VC FirstMark публикует список инструментов для работы с данными из разных категорий.
Каждый год список растет.
Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering…
Каждый год список растет.
Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering…
Единственные papers я читаю это про современные хранилища или аналитические решения. Вот вам про Trino (PrestoDB): https://trino.io/Presto_SQL_on_Everything.pdf
Abstract
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.
Вообще было бы классно его добавить в Yandex Cloud/VK Cloud. Там какие альтернативы для SQL движка поверх storage?
Abstract
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.
Вообще было бы классно его добавить в Yandex Cloud/VK Cloud. Там какие альтернативы для SQL движка поверх storage?
Как классно качать свою карьеру?
Все просто, учимся, собеседуемся, делаем пет проекты и вообще занимаем проактивную позицию.
Никита (я про него писал, про его success story из Бизнес Аналитика в Analytics Engineer) своим примером показывает, что возможно все.
Недавно он нам показывал свой проект в Surfalytics, который он сделал для Paradime (ребята взяли dbt core и стали продавать дешевле dbt labs🤦♂️ ). В проекте он построил решение на Snowflake, dbt, sygma, hex и наковырял insights по NBA data set.
И Paradime написали блог про проект Никиты https://www.paradime.io/blog/nikita-volynets-dbt-and-toronto-raptors
Вообще это хорошая тактика использовать “маленьких” вендоров, чтобы пиарить их, а они будут пиарить вас. Я сам раньше так через консалтинг делал с Matillion ETL и SQLdbm. Хороший охват аудитории.
Все просто, учимся, собеседуемся, делаем пет проекты и вообще занимаем проактивную позицию.
Никита (я про него писал, про его success story из Бизнес Аналитика в Analytics Engineer) своим примером показывает, что возможно все.
Недавно он нам показывал свой проект в Surfalytics, который он сделал для Paradime (ребята взяли dbt core и стали продавать дешевле dbt labs
И Paradime написали блог про проект Никиты https://www.paradime.io/blog/nikita-volynets-dbt-and-toronto-raptors
Вообще это хорошая тактика использовать “маленьких” вендоров, чтобы пиарить их, а они будут пиарить вас. Я сам раньше так через консалтинг делал с Matillion ETL и SQLdbm. Хороший охват аудитории.
Please open Telegram to view this post
VIEW IN TELEGRAM