Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Ещё одна вакансия от Циан. И они конечно же поддержали vsevsevmeste.ru
Вакансия: Data engineer в Циане
(Москва/Питер/Удаленка)

Циан – крупнейший в России сервис для поиска недвижимости. 18 лет мы помогаем людям найти, сдать, продать жилье по всей России. Циан не просто сайт, это высокотехнологичная компания, которая входит в топ-10 лучших сайтов по недвижимости в мире.

Сейчас мы выводим нашу аналитику на новый уровень с точки зрения эффективности и ценности для Циан.
Используем стек технологий: Python 3.6, Scala, Hadoop-3.1.1, Spark-2.3.2, Spark Streaming, Hive, Kafka, Hbase, Cassandra, Redis.

Задачи, которые могут стать твоими:
🔹Real-time обработка и поставка больших данных в различные хранилища для быстрого доступа;
🔹Налаживание регулярных процессов подготовки и поставки данных для продуктовых команд и data scientist-ов;
🔹Разработка микросервисов на python/tornado для внедрения моделей машинного обучения в прод;



Подробнее о позиции и условиях: https://hh.ru/vacancy/38324558 Контакты для вопросов и резюме (Таня): t.lavrenteva@cian.ru, @tankiash - telegram.
Forwarded from Smart Data (Denis Solovyov)
Начинаем нашу серию постов о 3 факторе эффективности работы data team - "Структура".

Подумал, что лучше всего будет провести мини-интервью с опытными специалистами, которые поработали и работают в компаниях разных размеров. Чтобы они рассказали, из каких ролей состоит их команда по работе с данными, и какие функции они выполняют. Пока написал около 6-7 человек. Возможно, ешё кому-то напишу и пообщаюсь:)

Серия постов будет в формате 1-2 мини-интервью на пост, чтобы не было каши.

Первым человеком, с которым я пообщался на эту тему, был Дмитрий Аношин - Role Senior Data Engineer в Microsoft (до этого 5 лет работал в Amazon). Дима дал краткую сводку по тому, на каких проектах он работал в Amazon, над чем сейчас работает в Microsoft, какие роли были в командах проектов и с какими проблемами в структуре он столкнулся.

Цитирую:
"Смотри: Amazon:
1) Amazon Marketplace: Role BI+Data Engineer, работал с BIE
В качестве BI:
- установка Tableau Server
- Миграция SQL+Excel отчетов на Tableau
- Self-Service implementation
- Office Hours + Training (Adoption of BI)

В качестве Data Engineer:
-Миграция on premise Oracle DW + PL/SQL ETL на Amazon Redshift, работал с DBA, SDE
-Поиск и выбор Cloud ETL -> Matillion ETL и миграция всего с PL/SQL на ETL + переработка бизнес логики
-Использование AWS EMR+Spark (PySpark) для решения задачи с обработкой веб логов, так как ETL+DW просто не вывозили объем. Результат Spark был в Parquet в S3 (по сути озеро данных) и доступ к нему был через Athena и Redshift Spectrum
- Streaming данных из DynamoDB в real-time через DynamoDB Streams + Kinesis Firehose + Glue

2) Amazon Alexa BI: Role Data Engineer, работал с Product Managers, SDE и BIE
- Внедрение ETL Matillion ETL
- Создание тестовой/боевой системы в ETL и DW (Amazon Redshift)
- Оптимизация Tableau Data Sources (в среднем по 150млн строк было в одном data source)
- Разработка новой платформы для Alexa c названием Sputnik. С использованием новых нод Redshift RA3. Объем данных планировался 120ТБ в год.
- Работал вместе с Data Science над созданием Alexa Churn модели; моя задача была масштабировать модель и подготовка данных на AWS SageMaker

3) Amazon Customer Behaviour Analytics: Role Data Engineer, работал с ML, Data Science + Product Managers
- создание Big Data системы для ML модели. По сути задача системы была - feature engineering, нужно было процедить 700ТБ данных за год (clickstream + backend). Использовали EMR+Spark, логика была на SparkSQL и иногда Scala.
- моя задача была автоматизация всей этой истории, ее безопасность, privacy (GDPR и тп), и качество данных через Spark библиотеку deeque
- Дальше они уже сами брали данные через GPU EC2 instance и строили нейронную сеть (deep learning)

4) Microsoft Xbox game studios: Role Sr. Data Engineer, работаю с BIE, ML, Producers (вместо Product Managers), Artists (designers) и инженерами (SDE).
-моя задача создать новую платформу под новую игру, планирую делать Delta Lake на Databricks (активно изучаю)
-сейчас пока все на HDInsight+Hive (процессинг сырых данных) + SQL Server (dimensional model)
-дашборды в Power BI (который я не люблю после Табло)
-также для операционной аналитики Azure Data Explorer (аналог Splunk и Elastic Search)
-активно используем Azure DevOps (Git + Pipelines) и Microsoft Visual Studio в качестве IDE. Разбираюсь в CI/CD, очень крутая тема конечно, но надо время, чтобы въехать."

Главная проблема в структуре, с которой Дима столкнулся - когда в одной команде работают и разработчики программного обеспечения, и дата-инженеры. Он, как дата-инженер, выступал за простоту решения в виде использования ETL-инструментов с графическим интерфейсом, которые при этом полностью решали задачу проекта, а разработчики больше выступали за использование кода. В общем, договориться было сложно)Это тормозило разработку решения и потом было сложно найти, кто прав, кто виноват.
Я часто добавляю что-то в Linkedin. Но только 2 темы набирают больше 100 лайков, это PowerBI и Snowflake. Но Power BI явно популярней. Для сравнения, в среднем посты набирают 10 лайков, иногда 50. Но вот, чтобы 100+ было всего несколько раз. Я вообще склоняюсь, что Linkedin бесполезен.
Пока я пытался научиться кататься на лыжах, Анастасия выложила первый урок своего курса:

📌 Немного информации по курсу: Как проходить курс? Как будет проходить процесс обучения?
📌 Немного вводной информации про Искусственный Интеллект (AI), Машинное обучение (ML) и Data Science;
📌 AI и его подвиды;
📌 Виды ML (Supervised, Unsupervised, Semi-supervised and Reinforcement Learning);
📌 Data with/without Labels или Размеченные и Неразмеченные данные;
📌 Какие задачи можно решить с помощью ML (Recommendation, Ranking, Regression, Classification, Clustering, Anomaly Detection) ;
📌 Что такое Жизненный Цикл ML (ML Lifecycle) и как он работает.

Если вы не планируете проходить курс и вы очень далеки от темы ML/AI. Я вам очень рекомендую посмотреть это видео, Настя рассказала простым языком, что обозначают термины, и как это дело работает.

https://youtu.be/Cf_Yys2VHS4
Forwarded from Smart Data (Denis Solovyov)
Под бизнес-ориентированностью я полагаю умение смотреть на свою работу с точки зрения эффективности бизнеса заказчика и бизнеса компании, в которой вы работаете. Я люблю упоминать именно этот термин, а не "Клиентоориентированность", так как для меня клиентоориентированность - это всегда следовать правилу "клиент всегда прав". Я не согласен с таким подходом, так как заказчик нанимает вас как экспертов, а не рабочие руки, которые просто выполняют то, что он говорит. Если вы не согласны с заказчиком и считаете, что есть более оптимальный вариант решения для его бизнеса, нужно ему об этом сказать, опираясь на цифры, кейсы и лучшие практики рынка. Это и есть бизнес-ориентированность.
Проверить это качество у кандидата можно простым моделированием бизнес-ситуации. Например, вы выступаете в роли заказчика, а кандидат - в роли исполнителя. Вы можете предложить какое-то даже абсурдное решение и сказать: "Вот, я хочу сделать вот так". Вот здесь как раз и раскрывается компетентность и потенциал кандидата. Можно посмотреть, согласится он с вами или предложит другое решение и будет отстаивать его, опираясь на цифры, факты и кейсы, при этом сохраняя к вам уважение.
Я однажды собеседовался в компанию, и как раз на этом посыпался. Директор компании сказал, что мне не хватает критического мышления. Я был очень расстроен тогда сначала, а потом осознал, что мне указали на мой недостаток, и это может быть точкой роста. Это собеседование стало переломным для меня, и сейчас я всегда стараюсь вступать в конструктивную дискуссию, если я с чем то не согласен, и стараюсь искать всегда оптимальные решения для бизнеса.

Теперь о честности. Честность сложно проверить какими-то тестами. Разве что вы владеете психоанализом:))
Чтобы определить, честен с вами человек или нет, нужно обладать большим опытом и хорошей интуицией. Уметь чувствовать людей. Вообще я считаю интуицию - одним из главных качеств хорошего руководителя.

Проактивность. Для меня проактивность - это выход за рамки должностных инструкций. Когда вы не просто выполняете свою работу, а думаете о том, как улучшить продукт, оптимизировать процесс работы (как своей, так и компании).
На собеседованиях можно спросить у человека, как он пытался улучшить продукт или процесс, что он для этого делал, с какими проблемами столкнулся. Обычно проактивный человек будет рассказывать об этом в подробностях и не будет "лить воду".

Стремление к саморазвитию. Очень важное качество, я бы сказал - движущая сила сотрудников. Если люди постоянно стремятся развивать свои софт и хард-скиллы, шансы на рост компании увеличиваются в десятки раз.
На собеседованиях можно спрашивать у кандидата, как он совершенствует свои навыки, какие книги или статьи он читает, какие видео смотрит, как тренирует свои навыки и т.д. При этом вопросы лучше задавать в формате "Какую последнюю книгу вы прочитали? Какие выводы сделали?", "Какую статью прочитали, с чем были не согласны?" Так как есть кандидаты, которые любят врать на собеседованиях:) А такие вопросы могут застать врасплох.


Думаю, тему раскрыл.

P.S. Про все факторы эффективности более подробно можно прочитать в книге "Идеальный руководитель" Ицхака Адизеса. Про общие взгляды и ценности там целых 2 главы)

P.S.S. Следующий пост будет посвящён технологиям и инструментам, которые имеет смысл применять на определённой стадии развития онлайн-бизнеса.
Ух, как мы мощно начали 2021! Я всегда говорю, главная цель #datalearn - это достижение результата и трудоустройство. Благодаря Анастасии Дробышевей, профессионального консультант по рынку труда и карьерному развитию и ее инициативы мы добавили еще один убойный курс - Поиск работы для аналитических специальностей в России и за рубежом, сокращенно Job Hunting - 101 (JH - 101).

За 10 лет Анастасия провела более 2 000 карьерных консультаций, специализируется на IT/ digital, internet & e-commerce. Использует лучшие международные практики, полученные в работе с крупными американскими компаниями. В 2017 г. переехала из России в Словению, поэтому не понаслышке знает о поиске работы за границей.

Задача курса ー описать весь процесс поиска работы и дать вам инструменты для самостоятельного джобхантинга в любой стране.

Для кого курс:
📌Для кого этот курс?!Учебный курс подойдёт для аналитиков данных, инженеров данных, Data Scientist и других смежных профессий.

📌Вы узнаете о 5 этапах поиска работы от постановки цели до подписания трудового договора.

📌Разберем алгоритмы действий на каждом шаге поиска, каналы поиска работы и технологии нетворкинга.

📌Рассмотрим примеры формулировок в Резюме и профиле LinkedIn, готовые скрипты и шаблоны для переписки.

📌В финальной части обсудим, как говорить о зарплате и улучшить условия оффера.

📌В результате обучения вы сможете самостоятельно искать работу в любой стране и выстраивать процесс под свои задачи.

Содержание курса:
📌Урок 1. Стратегия поиска работы - Как грамотно спланировать поиск и поставить цель, опираясь на реалии рынка труда и свои сильные стороны.
📌Урок 2. Маркетинговые материалы - Как сделать сильное Резюме, настроить профили на LinkedIn и GitHub.
📌Урок 3. Поиск вакансий и отклики - Где искать вакансии в России и в других странах. Что делать, чтобы работодатель вас заметил.
📌Урок 4. Нетворкинг - Как развивать свой личный бренд, дружить с нужными людьми и укреплять социальные связи для успешного поиска работы.
📌Урок 5. Интервью и обсуждение оффера - Что важно на каждом этапе интервью и как себя лучше продать. Что хотят от кандидата FAANG-компаний.
📌 Bonus Track: Как не выгореть в процессе и Чек-лист готовности к поиску

Теперь у вас будет абсолютно все, чтобы
а) найти свою первую работу
б) сменить деятельность и начать работать с данными
в) подготовиться к собеседование в любой точке мира, включая компании FAANG

Регистрируйтесь, общайтесь в нашем Slack и помогайте друг другу быть успешней и лучше!
Если у вас есть много времени и вы хотите разобраться в построение распределенных системе, то вы можете ознакомится с лекциями MIT. -> MIT 6.824: Distributed Systems (Spring 2020)
Мне нравятся параллели с прошлым. Многое из того, что используем сейчас было сделано давно, но только сейчас становиться популярным. Ссылка: https://thenewstack.io/apache-iceberg-a-different-table-design-for-big-data/

Кто-то работал с Iceberg?
А это CEO Snowflake на обложке Forbes. Я про него читал, он иммигрант из Нидерландов. Он такой, настоящий ковбой, знает, что хочет и добивается. Явно полная противоположность Сатии CEO Microsoft. Я читал, что до Snowflake он уже был на пенсии, тусил с семьей на яхте, и согласился возглавить снежинку, и теперь миллиардер. Я кстати тоже 1000$ заработал на росте акции, с момента IPO.

https://www.forbes.com/sites/alexkonrad/2021/02/01/the-outsider/
Еще один python инструмент для ETL и pipelines, выпустил обновление под кодовым названием "The Edge of Glory.” https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
Dropbox рассказывает почему выбрали Apache Superset. Я то знаю наперед, у них много программистов, которые могут внедрять такое решение, модифицировать и поддерживать его. А то скучно будет. В статье также сравнительная таблица нескольких BI инструментов и критерии отбора, можно использовать:
-Superset
-Redash
-Mode
-Periscope

Я бы купил табло всем и не парился🤪 Но ребята любят Open Source
Прислали копию книг Azure Data Factory. 4 автора включая меня это наши ребята и один из technical reviewer, тоже наш человек. Кстати Павел ещё курирует модуль 4 про ETL и сейчас готовит видео по Pentaho DI, где покажет как делать базовые вещи в ETL/DW.
Каждый день я изучаю databricks и прохожу тренинги по нему. И по-моему не зря. Он получил еще млрд инвестиций от Salesforce, AWS и других. Так как я изучаю продукт в Azure, то там вообще всех запутали. Вы можете использовать Synapse Analytics (DW) от Azure, и к нему опционально использовать databricks или писать запросы к Delta таблицам в databricks. А можете использовать только databricks и строить Delta Lake. Но в Azure про это совсем не четко написано, как будто их задача, чтобы вы использовали Synapse + Databricks, да и только.

Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее

Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.