Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Весь LinkedIn пестрит постами про Apache Iceberg. Посты писать уже не достаточно, нужно снимать видео, как вот на S3 создали Iceberg таблицу, запустили Spark и написали запрос.

Все твердят о том, как Apache Iceberg одержал победу над Delta, Hudi и стал главным форматом таблиц. Кстати, на последних собеседованиях уже начали спрашивать про Iceberg и DuckDB.

Не важно, какая у вас роль, если вы работаете с данными, вы должны знать про Apache Iceberg и понимать суть и сценарии использования.

Apache Iceberg - это формат таблиц (не путать с типом файла!). Когда мы сохраняем наши данные в storage layer, например в формате Parquet, мы добавляем метаданные:
- Metadata file - содержит информацию об общей структуре таблицы, таких как схема, версии и снэпшоты.
- Manifest list - список всех файлов-манифестов, связанных с конкретным снэпшотом таблицы.
- Manifest file - указывает на конкретные файлы данных, описывая их диапазоны и разделы для эффективной фильтрации.


Полезные ресурсы:
An introduction to Apache Iceberg by Dremio.
Iceberg, Spark and Dremio - A Hands on Experience.
Data Lakehouse Basics by Dremio.
Apache Iceberg Quick start with Docker Compose.
Apache Iceberg Fundamentals: Course.
Бесплатная книга Apache Iceberg: The Definitive Guide PDF

От наших облаков из комментов:
В Yandex Cloud возможны следующие способы работы с delta-форматами файлов:
1) коннекторы iceberg и delta lake в сервисе Managed Trino, который будет доступен пользователям в рамках technical preview уже в декабре 2024 года

2) delta lake в сервисе Yandex Data Processing
https://yandex.cloud/ru/docs/data-proc/concepts/deltalake
https://github.com/yandex-cloud/yc-delta

3) в Cloudberry, на основе которого будут реализованы новые версии Greenplum'а в YC, есть поддержка iceberg в коммерческой версии, однако есть планы по релизу в open-source:
https://github.com/apache/cloudberry/discussions/667#discussioncomment-10944084
- в случае появления кода в open-source репоз
итории, поддержка iceberg для Cloudberry будет доступна и в Yandex Cloud

В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Хотя вы можете создать свой Lakehouse на Kubernetes + Minio + Iceberg + Trino/Spark.

Еще нашел:
2 отечественных продукта с managed Trino, возможно они поддерживают iceberg.
СedrusData - распределенная SQL-система для создания аналитических платформ уровня предприятия на основе open-source проекта Trino. Работает с любыми источниками и объемами данных, в облаке и on-premise.
Разрабатывается компанией Querify Labs.


Обзор Managed Trino от Cloud Ru.

PS: если хотите добавить ссылку в комментарии, используйте её как текст, а не как гиперссылку, или через markdown.


www.dataengineer.ru
❤‍🔥488💯3🫡2
За 200$ в месяц ChatGPT никто не пробовал в работе?
🙈3816🤷‍♀42🐳2🍾2💯1
Хотел сегодня поделится маленькими телеграмм каналами своих давних друзей. Они совсем не из ИТ, но ребята делают то, что им нравится!

ВАСО НА СТРОЙКЕ🛹👷‍♂🛠️ - Васю знаю давно, скейтер старой школы. Он подарил скейт на первый день рождение моему сыну 12 лет назад. В душе он всегда был предпринимателем, а сейчас ведет канал про строительство скейт парков в России. Он и его команда строят парки мирового уровнях в любых условиях в городах России. Контент топчик!

Welcome 2 backstage - канал про моду и стиль, ведет Женя. С Женей мы давно знакомы и познакомились на Московской Неделе Моды в гостином дворе, где работали много лет вместе. Оказалось что мы живем на соседних станциях метро. Он все знают про стиль и моды и кайфует от того, что делает. Заодно в его сторис я всегда узнаю о топ фильмах к просмотру!
❤‍🔥14🗿64🍌31
Вот это я понимаю аналитика будущего.

Вам понадобится:
- 1 iPhone или Android
- Коробка с сухим льдом для охлаждения, хотя зимой можно в форточку высунуть
- Эмулятор командной строки
- DuckDB

И можно анализировать ваши данные. Это еще они на PS5 или Steam Deck не запускали DuckDB.

Источник: https://duckdb.org/2024/12/06/duckdb-tpch-sf100-on-mobile
🙈3311❤‍🔥4🌚3💯2
Нужно ли быть честным кандидатом на собеседовании и честным сотрудником?

Казалось бы, честность и открытость — это хорошо. Однако, в корпоративном мире такая честность имеет высокую цену.

Сейчас все обсуждают случай, когда компания YesMadam уволила сотрудников нытиков, которые жаловались на стресс. Они надеялись на понимание, а получили "пинка под зад".

Очевидный вывод: быть честным с работодателем небезопасно!

Вот примеры из личного опыта:
- На одном собеседовании меня спросили о недостатках. Я честно рассказал, как был токсичным, конфликтовал с начальством, отстаивал интересы команды и компании, в итоге попал на PIP, прошел его, снова конфликтовал и в итоге уволился. После этого уволили и директора, и VP. Реальная жизненная история. На следующий день я получил отказ от hiring manager.
- В общении с американскими коллегами выразил симпатию Трампу. Оказалось, для них это серьезная проблема, и теперь взаимодействовать с ними стало сложнее.

Это лишь пара небольших примеров.

Не забывайте: задача HR — защищать интересы компании. Все, что вы скажете, может быть использовано против вас. Я сам не раз наступал на одни и те же грабли.

Хотите роста и стабильности? Играйте по правилам компании, пока не наберете “достаточный вес”, чтобы позволить себе быть честным. Хотя, как известно, незаменимых людей не бывает.
💯145😭13❤‍🔥98🗿4🍌3🌭2
Обновление dataengineer.ru:

1. В карьерные треки я написал введение про управление карьерой как бизнесом имени себя и принципы Карнеги про people skills. Я считаю это очень важно для успешной карьеры. Как ни странно от такого подхода должны выигрывать компании и сотрудники.

Так сложилось, что после книги “Как завоевывать друзей и оказывать влияние на людей” Карнеги, я стал слушать книгу - “Soft Skills: The Software Developer’s Life Manual” Джона Сонмеза. В своей книги он все время ссылается на Карнеги, у которого книга написана была в 1936 году. Джон так же рассказывает про отношение к карьере как к бизнесу, где нужно принимать бизнес решения и брать на себя ответственность. Последнее время я как раз размышлял, почему у одних карьера успешнее, чем у других. Причин и путей много, но как видно бизнес подход имеет определенный смысл и эффективность.

2. Еще больше инструментов в CLI и IDE и AI в помощь
3. В облачные вычисления добавил платформы и курсы.
4. В секцию BI добавили про Инструментарий Разработчика.
5. В DevOps добавили про Git системы.
6. Добавили еще немного книг.

PS хотите добавлять ресурсы на портал? Писать простым языком про сложные вещи? Эксперт в какой-то нише? Добавляйтесь в котрибьютеры!

#dataengineer_ru
2❤‍🔥728🎄4🐳2
Я провел недавно эксперимент на LinkedIn. У меня там несколько компаний зарегистрировано, в каждой можно создавать Jobs. Лишь подтверждение, что платформа вообще не подходит для поиска работы, будет только сжирать время и ресурсы. А для компаний еще и кучу бабла.

В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.

За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.

В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.

В LinkedIn это работает как в Google Ads, по кликам мы платим.

LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.

Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/

Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.

Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.

Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.

Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.

Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.

Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).
🙈75🫡3013🤷‍♂86🐳1
Forwarded from Книжный куб (Alexander Polomodov)
Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms (Рубрика #Data)

И, продолжая тему систем хранения данных, я решил сегодня поделиться новым выпуском подкаста про инсайты. В этот раз ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. Выпуск доступен в виде подкаста на Ya Music и Podster.fm

За время подкаста мы обсудили темы
- Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
- Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
- Как выглядят принципы федерализации данных (аля data mesh) в теории
- Во что этот подход превращается на практике
- Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
- Что не так с классическими базами данных (Postgres и иже с ним)
- Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
- Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
- Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
- Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
- Что такое medalion architecture
- Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения

Дополнительные материалы
- Статьи из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы"
- Статья из периода работы в Manychat: 1 и 2
- Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov"
- Запись "DataVault / Anchor Modeling / Николай Голов"
- Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01.009
- Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019

#Data #Datamesh #Processes #Management #Architecture
❤‍🔥359🙉33
Модуль 2 курса Getting Started with Analytics and Data Engineering на английском готов:

Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on


Ссылка на модуль 1 https://t.me/rockyourdata/4739
Ссылка на модуль 0 https://t.me/rockyourdata/4553

Модуль 1 и 0 просто MUST HAVE!

И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/

PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
53❤‍🔥27🫡9🍾2🦄1
Работают над проектом в Surfalytics, чтобы научить базовым вещам в CI/CD, DevOps для аналитиков и инженеров данных. Первая половина готова: https://github.com/surfalytics/data-projects/blob/main/dataops-projects/01_git_and_ci_cd/readme.md

Пока это совсем простой пример, где у нас даже нет Python, всего лишь SQL файлик + DuckDB и Docker контейнер.

План такой:
- все делаем на локальной машине
- все делаем внутри Docker
- добавляем локальную проверку с Pre-commit (Yaml, SQLfmt)
- добавляем PR шаблон
- добавляем makefile
- добавляем .gitignore, .dockerignore
- добавляем шаг CI через GitHub Actions - запуск Pre-commit удаленно
- добавляем шаг Integration test в CI. Будем сверять SQL результат, что наша логика не поменялась.

На этом закончится первая половина. На следующей неделе добавлю часть про CD, tags, Release, может быть попробую blue-green deployment.

В readme все очень хорошо описано. Создаете новый GitHub репозиторий и погнали. Ну или к нам присоединяйтесь, тогда уже все вам на пальцах расскажут:

- Data Analyst Role landing
- Data Engineer Role Landing
- Analytics Engineer Role Landing
- BI Engineer Role Landing

На большинство проектов, где я работал даже таких базовых вещей не было, поэтому классно разобраться в этом и на собеседования рассказывать или уже идти и внедрять к себе сразу.
2❤‍🔥8516🌚3🫡2
Дата все! Озвучили мысль, что данных больше нет для тренировки AI, и не предвидится. Синтетические не в счет.
🤷2813🐳6❤‍🔥5🙈1
В продолжение прошлого поста:

Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.

Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.


Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.

Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈21🫡64🌚1💘1
Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!

Today’s announcement comes on the heels of Databricks’ recent momentum which includes:

Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year



Мне кажется сотрудники Databricks уже устали ждать IPO🏃‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11
Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪


MicroStrategy обанкротится только если астероид ударит по Земле.

За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.

Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.

Основываясь только на BTC, цена ликвидации составляет $16.5K.


Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25❤‍🔥3🙈2
Clickhouse strong💪
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50👨‍💻3🙈1
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
❤️‍🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.

Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten

Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.

Ниже привожу текст от Кристины:

«Дорогие все.

Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.

Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.

В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.

Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.

Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.

P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
❤‍🔥18😭15🗿2🍾1
Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments

Тут 3 проекты/задания

1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.

Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.

Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
2❤‍🔥64💘2🍾1🎄1
Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared

PS Спасибо Юре, который поделился в Surfalytics Discord.
❤‍🔥35🫡8💯5🍾3