Инжиниринг Данных
19.3K subscribers
1.51K photos
25 videos
175 files
2.8K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Download Telegram
Интересный анализ от Financial Times про возраст для первого ребенка. В возрасте 34 года у женщин 0 детей.

Когда в 2016 году мы переехали в Канаду я сразу обратил внимание на коллег за 30 у кого нет в планах детей, и коллеги за 35 планируют первого ребенка. Частые поездки в Сиэтл лишь подтвердили тренд, в которым отдают предпочтение собакам вместо детей. (Собак я тоже люблю, больше чем кошек, если что☺️), дискуссию лишь про детей. И это все было еще до лгбт+ маркетинга.

Причины были банальны. Чтобы иметь детей, один из родителей должен не работать и желательно уже иметь ипотеку. Но чтобы это позволить, нужно выплатить кредит за образование и найти хорошую работу. Родители как правило выгоняют детей после 18 и дети уже не ожидают помощи от родителей и сами решают свои финансовые проблемы и растят детей, если конечно к 40 годам созреют.

Это лишь мое наблюдение за 9 дет в Канаде и США. Как в России мне понятно, и я там уже отношусь к многодетной семье с 3мя детьми.

В Канаде и США все наоборот, дети это очень дорого, возможно поэтому многие ограничиваются собаками и кошками.

Как там дела в Европе, в Штатах, Канаде и других странах?

PS мой совет всегда простой - взять ипотеку, завести детей и дальше уже как-нибудь все сложится:)
Please open Telegram to view this post
VIEW IN TELEGRAM
Что мы знаем про продуктовых аналитиков в Авито?

— Быстро растут и развиваются внутри компании;
— Многое автоматизируют, обучают модели и прогнозируют;
— Постоянно запускают эксперименты, строят фреймворки и математические модели;
— Каждый работает в своей продуктовой команде, но не теряет связь с аналитиками из других направлений.

Хочешь также?
Подавай заявку на Weekend Offer до 4 апреля, приходи интервью и получай оффер!
🚀
Анонс Вебинара: "Разработка data приложений на DuckDB"🚀

Давненько не было.... уверен ждали)))

📅 Дата вебинара 4 апреля в 7 вечера по мск

🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙

🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share

Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.

🔍 Что мы обсудим на вебинаре:

🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.

👨‍💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.


#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Обновление платформы YTsaurus

В новой версии YTsaurus Server 23.2.0 оптимизировали подсистему обработки данных, добавили OAuth‑аутентификацию и расширили возможности языка запросов динамических таблиц. Плюсом — еще несколько обновлений других частей платформы.

Подробности — в блоге.
Дашборд должен быть всегда простой, еще бы неплохо, чтобы был понятный.

Заметил интересный момент, пока BI люди трудятся над дашбордами, выбирают цвет, шрифт, толщину линии, ребята из devops, platform и тп используют инструменты для observation (мониторинга), чтобы быстро своять дашборд, который будет простой и понятный. Не изобретают велосипед с типом графика и цветовой палитрой в цвет того компании.

Как вообще обстоят дела с визуализацией? Тема как-то ушла на зданий план в последнее время. Ни новый промывных фич, ни супер-пупер best practices. Поделитесь в комментариях.
Оффер за 2 дня — легко!

🙂 Регистрируйся на Weekend Offer Лиги Ставок для продуктовых аналитиков.

20 и 21 апреля мы проведем технические собеседования и познакомимся с командами. Все этапы будут проходить в zoom. Основная часть — в субботу, а знакомство с продактами — в воскресенье. Если случится метч, ты получишь оффер до конца дня!

Как у нас все устроено? Переходи по ссылке 😍

Мы ждем тебя в команде!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хорошая статья про партиции - Iceberg Partitioning and Performance Optimizations in Trino. В данном случае на примере Trino. И заодно сравнение Hive (традиционный подход для Spark, Trino и других инструментов озера данных) и Iceberg (популярный формат данных для lakehouse).

Я сам в послденее время глубоко в оптимизации Trino, который живет на GCP Kubernetes. И пока набиваю шишки связанные с OUT OF MEMORY (OOM) ошибками. Вообще решение очень удобное, особенно для стартапов.
Каждый год VC FirstMark публикует список инструментов для работы с данными из разных категорий.

Каждый год список растет.

Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering, BI и тп) прошел, и все сейчас делают AI. Что в общем-то очевидно.

Вопрос, что делать? Тема уже на раз обсуждалось, и как обычно ответ простой - надо быть ближе к “деньгами”, то есть приносить ценность организации, клиентам, коллегам, учиться (grow mindset) и особенно искать точки соприкосновения между BI/Data Engineering и GenAI и смотреть куда все движется.

На вопрос, что сейчас делают компании с GenAI у меня есть ответ, сам уже видел в нескольких больших S&P500 компаниях - фокус на эффективность, автоматизацию, повышения качества и безопасности. Пока еще на стадии PoC.

Конкретно для инженеров пока ограничивается использованием Co-Pilot как помошником и повышения эффективности.

Еще несколько лет мы точно будем не заменимы🚣 (не претендую на экспертное мнение, если чЕ🍟)

А как вам кажется?

https://mattturck.com/mad2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
Изучил вопрос вакансий и недвижимости в Швейцарии https://youtu.be/5pGVEnCLxLk.

Кто-то собирает ложки и рюмки из разных стран, а я теперь пробую сидр 🍺 и заодно изучаю рынок страны, откуда сидр привезли. Друзья привезли из Швейцарии сидр Moehl, и я изучил рынок. Еще оказалось, что товарищ оттуда написал мне и рассказал про свои доходы и расходы.

Вот как обычно мои заметки:

🏡По стране:
Весь движ в Женеве и Цюрихе, причем в Женеве на английском гораздо больше вакансий 🌍.
Судя по вакансиям и количеству заявлений, у них там голод по дата-инженерам 👨‍💻.
Работа в основном офисная или гибридная.
Мало вакансий на позиции Senior.
Ипотека 2,5%, но, похоже, там никто не покупает, и все предпочитают аренду 🏠.
Налоги ниже, чем в Канаде и США 💰.
Много контрактных вакансий 📄.

🛠По технологиям:
Очень много Microsoft и on-premise решений 💻.
Есть много современных вакансий с облачными технологиями, Databricks, BigQuery .
Обязательно знание DevOps для инженера данных .
Power BI доминирует.

🏦По зарплате:
Очень мало вакансий с указанием зарплатной вилки.
Из того, что есть - 120к-140к франков, и судя по местному калькулятору, это 7-8т на руки (но это не Senior позиции).

От товарища информация:
Контракт на 100+ франков в час.
13т франков в месяц, по калькулятору налогов это в год больше 230т франков, что считается высокой зарплатой.
Аренда 2500 франков.
Страховка 700 франков на человека.

PS как обычно любая иммиграция связана с двумя основными вещами.

Первая очень простая - это скилы, которые можно выучить и подтянуть.

Скилы важны трех типов (которые я закрываю в Surfalytics:
1. Технические - инструменты, подходы (hard skills)
2. Коммуникация и коллаборация с коллегами (soft skills)
3. Навык прохождения собеседования (story telling😃)

А вот второй момент уже не простой - получение рабочей визы и легализация. Тут все зависит от страны и надо общаться с теми, кто уже прошел процесс.
Yandex Cloud запустила программу сертификации для специалистов по облачным технологиям. Сертификат Yandex Cloud Certified Engineer Associate подтверждает знания и навыки в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг. Онлайн-тестирование состоит из 65 вопросов. Для получения сертификата нужно набрать 70% или более правильных ответов. Экзамен соответствует международным стандартам и проводится с применением ИИ для прокторинга.

Первый экзамен пройдет 11 апреля – записаться можно по ссылке.
How Apache Spark performs a fast count using the parquet metadata - хорошая статья для дата инженера.

Ведь, не всегда нужно прочитать полностью весь датасет, что может быть дорого, но можно использовать метанные, как например, в этой статье.
Больше конверсий для рекламодателей — больше доход издателей

В Yandex Mobile Ads SDK 7 появились новые возможности для монетизации приложений. Во-первых, тестируется новый рекламный формат «Лента» — это десятки объявлений в одном месте. Пока формат доступен в бета-режиме для приложений на Android.

Во-вторых, для полноэкранных форматов добавили новые механики:

🔸 AdPod — показ нескольких объявлений в одном рекламном месте.
🔸 EndCard — интерактивный экран-пэкшот в конце объявления.
🔸 SKOverlay (для iOS) — рекламируемое приложение можно установить прямо из объявления.

Для Android добавили дебаг панель, это будет полезно для отладки рекламы в приложении.
Недавно я писал про MAD 2024. Так же есть и видео где обсуждают текущую ситуацию на рынке и куда все идет - Matt Turck - The 2024 MAD Landscape (Special Show)

Matt Turck joins us for a special chat about the newly released 2024 MAD (ML, AI, and Data) Landscape. There's a TON happening at light speed in the AI and data space right now, and Matt and the FirstMark crew have done a phenomenal job keeping a pulse on things.

Другое видео вам может понравится про создание консалтинга или переквалификацию в консультанта или контрактера - Starting An Independent Consulting Company In 2024

Я про освой опыт консалтинга уже рассказывал - Опыт создания аналитической консалтинг-компании в Северной Америке, как ни странно, компания еще существуют и многим помогает получить “первый опыт” дата профессии и главное его подтверждение🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
Единственные papers я читаю это про современные хранилища или аналитические решения. Вот вам про Trino (PrestoDB): https://trino.io/Presto_SQL_on_Everything.pdf


Abstract
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.


Вообще было бы классно его добавить в Yandex Cloud/VK Cloud. Там какие альтернативы для SQL движка поверх storage?
Как классно качать свою карьеру?

Все просто, учимся, собеседуемся, делаем пет проекты и вообще занимаем проактивную позицию.

Никита (я про него писал, про его success story из Бизнес Аналитика в Analytics Engineer) своим примером показывает, что возможно все.

Недавно он нам показывал свой проект в Surfalytics, который он сделал для Paradime (ребята взяли dbt core и стали продавать дешевле dbt labs🤦‍♂️). В проекте он построил решение на Snowflake, dbt, sygma, hex и наковырял insights по NBA data set.

И Paradime написали блог про проект Никиты https://www.paradime.io/blog/nikita-volynets-dbt-and-toronto-raptors

Вообще это хорошая тактика использовать “маленьких” вендоров, чтобы пиарить их, а они будут пиарить вас. Я сам раньше так через консалтинг делал с Matillion ETL и SQLdbm. Хороший охват аудитории.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Книжный куб (Alexander Polomodov)
Как я получаю информацию, чтобы быть в теме IT и не только

Недавно ко мне прилетел примерно такой вопрос от моего коллеги, Вовы Коноплева, CTO нашего банка для юрлиц, который ведет свой канал @konoplevthoughts
Мне вопрос понравился и я решил ответ на него превратить в отдельный пост, где я расскажу про свои источники информации

1) Книги
Я отслеживаю важные книги по интересным мне темам. Для этого я ориентируюсь на новинки на платформе
- Сайт онлайн-платформы O’Reilly, где есть книги разных издательств, а также видео и курсы
- Сайт издательства Питер, где интересно отслеживать новинки, а потом читать их неисковерканные в английском варианте
- Сайт издательства ДМК Пресс, где интересно отслеживать новинки и их даже можно покупать и читать (например, тут я писал про последнюю купленную партию книг из ДМК насчет статистики)
- Сайт издательства МИФ, где я покупаю много книг, но редко какие из них посвящены IT, так как это не профильная тема для МИФ
Отдельно отмечу, что меня интересуют книги как по IT, так и по современной науке, но обычно в формате научно-попуплярной литературы. Это позволяет мне поддерживать знания в актуальном состоянии.

2) Whitepapers
Я люблю читать важные whitepapers на темы, что меня задевают: архитектура , менеджмент, распределенные системы. Для этого у меня есть тоже набор источников
- Сайт ACM (Association for Computing Machinery) - сайт ассоциация вычислительной техники, старейшей и наиболее крупной международной организации в компьютерной области. На этом сайте есть куча whitepapers. Отдельно отмечу, что вступление в ряды членов ACM позволяет здорово сэкономить на доступах: само членство стоит 99$, за 75$ можно получить доступ к уже упоминавшейся выше платформе O'Reilly, Skillsoft Percipio и Pluralsight, а еще за 99$ к ACM Digital Library. В итоге, 273$ в год дают бандл, что стоит дешевле в 2 раза, чем доступ к O'Reilly отдельно
- Сайт Google Research, где есть куча интересных whitepapers, например, я уже публиковал такую подборку
- Сайт Amazon Science, где тоже много отличных материалов, например, "Dynamo: Amazon’s highly available key-value store" 2007 года, "Amazon Redshift and the case for simpler data warehouses" 2015 года, "Amazon Aurora: Design considerations for high throughput cloud-native relational databases" 2017 года, "Amazon DynamoDB: A scalable, predictably performant, and fully managed NoSQL database service" 2022 года
- Сайт Meta Research (запрещенной в России Meta), где тоже куча интересного материала

3) Telegram каналы
Приведу тут не весь список каналов, а тот, из которого я частенько узнаю что-то новое
- Сиолошная (@seeallochnaya) - здесь я читаю понятные тексты про LLMs и все, что с ними связано. По этим текстам мне кажется, что я неплохо все понимаю
- gonzo-обзоры ML статей (@gonzo_ML) - здесь я узнаю про whitepapers и понимаю, что пока не слишком хорошо во всем этом разбираюсь:)
- Инжиниринг Данных (@rockyourdata) - здесь я узнаю про современный ландшафт технологий работы с данными, но с фокусом на западных SaaS решениях и примесью on-prem решений
- Архитектура ИТ-решений (@it_arch) - отсюда я узнаю про интересные статьи на тему архитектуры и проектирования
- DDDevotion (@dddevotion) - тут я черпаю новости относительно DDD и той же архитектуры и проектирования

4) Популярные ресурсы на тему IT
- Сайт консультантов Thought Works и конкретно их выпуски про техрадары
- Сайт InfoQ и их ежемесячные рассылки по архитектуре

5) Каналы в Youtube
- Канал конференции goto, где есть записи с конференций крутых спикеров, многие из которых являются популярными авторами
- Канал конференции NDC, где тоже есть крутые выступления

6) Обучающие платформы
- Leetcode, где можно практиковать написание кода
- Edx - ресурс с крутыми университетскими курсами (я его использовал активно раньше)
- Coursera - ресурс с крутыми университетскими курсами (я его использовал активно раньше)
- Stepik - российский ресурс с хорошими курсами

#SelfDevelopment #Education #Software #Architecture #Management #Leadership
Самая важная информация для разработчика! Обязательно like поставьте, Surfalytics Shorts как ни как!