Инжиниринг Данных – Telegram

Инжиниринг Данных

23.4K subscribers

1.92K photos

57 videos

191 files

3.16K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.4K subscribers

Инжиниринг Данных

Ещё одна вакансия от Циан. И они конечно же поддержали vsevsevmeste.ru

2.91K viewsDmitry Anoshin, 15:55

Инжиниринг Данных

Вакансия: Data engineer в Циане
(Москва/Питер/Удаленка)

Циан – крупнейший в России сервис для поиска недвижимости. 18 лет мы помогаем людям найти, сдать, продать жилье по всей России. Циан не просто сайт, это высокотехнологичная компания, которая входит в топ-10 лучших сайтов по недвижимости в мире.

Сейчас мы выводим нашу аналитику на новый уровень с точки зрения эффективности и ценности для Циан.
Используем стек технологий: Python 3.6, Scala, Hadoop-3.1.1, Spark-2.3.2, Spark Streaming, Hive, Kafka, Hbase, Cassandra, Redis.

Задачи, которые могут стать твоими:
🔹Real-time обработка и поставка больших данных в различные хранилища для быстрого доступа;
🔹Налаживание регулярных процессов подготовки и поставки данных для продуктовых команд и data scientist-ов;
🔹Разработка микросервисов на python/tornado для внедрения моделей машинного обучения в прод;

Подробнее о позиции и условиях: https://hh.ru/vacancy/38324558 Контакты для вопросов и резюме (Таня): t.lavrenteva@cian.ru, @tankiash - telegram.

Вакансия Senior Data Engineer в Москве, работа в компании Циан (вакансия в архиве c 31 августа 2021)

Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 16.08.2021.

3.11K viewsDmitry Anoshin, 15:55

Инжиниринг Данных

2.9K viewsDmitry Anoshin, 12:00

Инжиниринг Данных

Forwarded from Smart Data (Denis Solovyov)

Начинаем нашу серию постов о 3 факторе эффективности работы data team - "Структура".

Подумал, что лучше всего будет провести мини-интервью с опытными специалистами, которые поработали и работают в компаниях разных размеров. Чтобы они рассказали, из каких ролей состоит их команда по работе с данными, и какие функции они выполняют. Пока написал около 6-7 человек. Возможно, ешё кому-то напишу и пообщаюсь:)

Серия постов будет в формате 1-2 мини-интервью на пост, чтобы не было каши.

Первым человеком, с которым я пообщался на эту тему, был Дмитрий Аношин - Role Senior Data Engineer в Microsoft (до этого 5 лет работал в Amazon). Дима дал краткую сводку по тому, на каких проектах он работал в Amazon, над чем сейчас работает в Microsoft, какие роли были в командах проектов и с какими проблемами в структуре он столкнулся.

Цитирую:
"Смотри: Amazon:
1) Amazon Marketplace: Role BI+Data Engineer, работал с BIE
В качестве BI:
- установка Tableau Server
- Миграция SQL+Excel отчетов на Tableau
- Self-Service implementation
- Office Hours + Training (Adoption of BI)

В качестве Data Engineer:
-Миграция on premise Oracle DW + PL/SQL ETL на Amazon Redshift, работал с DBA, SDE
-Поиск и выбор Cloud ETL -> Matillion ETL и миграция всего с PL/SQL на ETL + переработка бизнес логики
-Использование AWS EMR+Spark (PySpark) для решения задачи с обработкой веб логов, так как ETL+DW просто не вывозили объем. Результат Spark был в Parquet в S3 (по сути озеро данных) и доступ к нему был через Athena и Redshift Spectrum
- Streaming данных из DynamoDB в real-time через DynamoDB Streams + Kinesis Firehose + Glue

2) Amazon Alexa BI: Role Data Engineer, работал с Product Managers, SDE и BIE
- Внедрение ETL Matillion ETL
- Создание тестовой/боевой системы в ETL и DW (Amazon Redshift)
- Оптимизация Tableau Data Sources (в среднем по 150млн строк было в одном data source)
- Разработка новой платформы для Alexa c названием Sputnik. С использованием новых нод Redshift RA3. Объем данных планировался 120ТБ в год.
- Работал вместе с Data Science над созданием Alexa Churn модели; моя задача была масштабировать модель и подготовка данных на AWS SageMaker

3) Amazon Customer Behaviour Analytics: Role Data Engineer, работал с ML, Data Science + Product Managers
- создание Big Data системы для ML модели. По сути задача системы была - feature engineering, нужно было процедить 700ТБ данных за год (clickstream + backend). Использовали EMR+Spark, логика была на SparkSQL и иногда Scala.
- моя задача была автоматизация всей этой истории, ее безопасность, privacy (GDPR и тп), и качество данных через Spark библиотеку deeque
- Дальше они уже сами брали данные через GPU EC2 instance и строили нейронную сеть (deep learning)

4) Microsoft Xbox game studios: Role Sr. Data Engineer, работаю с BIE, ML, Producers (вместо Product Managers), Artists (designers) и инженерами (SDE).
-моя задача создать новую платформу под новую игру, планирую делать Delta Lake на Databricks (активно изучаю)
-сейчас пока все на HDInsight+Hive (процессинг сырых данных) + SQL Server (dimensional model)
-дашборды в Power BI (который я не люблю после Табло)
-также для операционной аналитики Azure Data Explorer (аналог Splunk и Elastic Search)
-активно используем Azure DevOps (Git + Pipelines) и Microsoft Visual Studio в качестве IDE. Разбираюсь в CI/CD, очень крутая тема конечно, но надо время, чтобы въехать."

Главная проблема в структуре, с которой Дима столкнулся - когда в одной команде работают и разработчики программного обеспечения, и дата-инженеры. Он, как дата-инженер, выступал за простоту решения в виде использования ETL-инструментов с графическим интерфейсом, которые при этом полностью решали задачу проекта, а разработчики больше выступали за использование кода. В общем, договориться было сложно)Это тормозило разработку решения и потом было сложно найти, кто прав, кто виноват.

3.06K viewsDmitry Anoshin, 16:56

Инжиниринг Данных

Я часто добавляю что-то в Linkedin. Но только 2 темы набирают больше 100 лайков, это PowerBI и Snowflake. Но Power BI явно популярней. Для сравнения, в среднем посты набирают 10 лайков, иногда 50. Но вот, чтобы 100+ было всего несколько раз. Я вообще склоняюсь, что Linkedin бесполезен.

2.8K viewsDmitry Anoshin, 18:24

Инжиниринг Данных

Пока я пытался научиться кататься на лыжах, Анастасия выложила первый урок своего курса:

📌 Немного информации по курсу: Как проходить курс? Как будет проходить процесс обучения?
📌 Немного вводной информации про Искусственный Интеллект (AI), Машинное обучение (ML) и Data Science;
📌 AI и его подвиды;
📌 Виды ML (Supervised, Unsupervised, Semi-supervised and Reinforcement Learning);
📌 Data with/without Labels или Размеченные и Неразмеченные данные;
📌 Какие задачи можно решить с помощью ML (Recommendation, Ranking, Regression, Classification, Clustering, Anomaly Detection) ;
📌 Что такое Жизненный Цикл ML (ML Lifecycle) и как он работает.

Если вы не планируете проходить курс и вы очень далеки от темы ML/AI. Я вам очень рекомендую посмотреть это видео, Настя рассказала простым языком, что обозначают термины, и как это дело работает.

https://youtu.be/Cf_Yys2VHS4

AI: subsets / ML: types, tasks, lifecycle / ML-101 | Module 01 | Lesson 01 / Анастасия Риццо

Курс Getting Started with Machine Learning and Data Science (ML-101).

Сегодня вы узнаете:
📌 Немного информации по курсу: Как проходить курс? Как будет проходить процесс обучения?
📌 Немного вводной информации про Искусственный Интеллект (AI), Машинное…

3.09K viewsDmitry Anoshin, edited 19:21

Инжиниринг Данных

Forwarded from Smart Data (Denis Solovyov)

Под бизнес-ориентированностью я полагаю умение смотреть на свою работу с точки зрения эффективности бизнеса заказчика и бизнеса компании, в которой вы работаете. Я люблю упоминать именно этот термин, а не "Клиентоориентированность", так как для меня клиентоориентированность - это всегда следовать правилу "клиент всегда прав". Я не согласен с таким подходом, так как заказчик нанимает вас как экспертов, а не рабочие руки, которые просто выполняют то, что он говорит. Если вы не согласны с заказчиком и считаете, что есть более оптимальный вариант решения для его бизнеса, нужно ему об этом сказать, опираясь на цифры, кейсы и лучшие практики рынка. Это и есть бизнес-ориентированность.
Проверить это качество у кандидата можно простым моделированием бизнес-ситуации. Например, вы выступаете в роли заказчика, а кандидат - в роли исполнителя. Вы можете предложить какое-то даже абсурдное решение и сказать: "Вот, я хочу сделать вот так". Вот здесь как раз и раскрывается компетентность и потенциал кандидата. Можно посмотреть, согласится он с вами или предложит другое решение и будет отстаивать его, опираясь на цифры, факты и кейсы, при этом сохраняя к вам уважение.
Я однажды собеседовался в компанию, и как раз на этом посыпался. Директор компании сказал, что мне не хватает критического мышления. Я был очень расстроен тогда сначала, а потом осознал, что мне указали на мой недостаток, и это может быть точкой роста. Это собеседование стало переломным для меня, и сейчас я всегда стараюсь вступать в конструктивную дискуссию, если я с чем то не согласен, и стараюсь искать всегда оптимальные решения для бизнеса.

Теперь о честности. Честность сложно проверить какими-то тестами. Разве что вы владеете психоанализом:))
Чтобы определить, честен с вами человек или нет, нужно обладать большим опытом и хорошей интуицией. Уметь чувствовать людей. Вообще я считаю интуицию - одним из главных качеств хорошего руководителя.

Проактивность. Для меня проактивность - это выход за рамки должностных инструкций. Когда вы не просто выполняете свою работу, а думаете о том, как улучшить продукт, оптимизировать процесс работы (как своей, так и компании).
На собеседованиях можно спросить у человека, как он пытался улучшить продукт или процесс, что он для этого делал, с какими проблемами столкнулся. Обычно проактивный человек будет рассказывать об этом в подробностях и не будет "лить воду".

Стремление к саморазвитию. Очень важное качество, я бы сказал - движущая сила сотрудников. Если люди постоянно стремятся развивать свои софт и хард-скиллы, шансы на рост компании увеличиваются в десятки раз.
На собеседованиях можно спрашивать у кандидата, как он совершенствует свои навыки, какие книги или статьи он читает, какие видео смотрит, как тренирует свои навыки и т.д. При этом вопросы лучше задавать в формате "Какую последнюю книгу вы прочитали? Какие выводы сделали?", "Какую статью прочитали, с чем были не согласны?" Так как есть кандидаты, которые любят врать на собеседованиях:) А такие вопросы могут застать врасплох.

Думаю, тему раскрыл.

P.S. Про все факторы эффективности более подробно можно прочитать в книге "Идеальный руководитель" Ицхака Адизеса. Про общие взгляды и ценности там целых 2 главы)

P.S.S. Следующий пост будет посвящён технологиям и инструментам, которые имеет смысл применять на определённой стадии развития онлайн-бизнеса.

2.81K viewsDmitry Anoshin, 17:09

Инжиниринг Данных

2.83K viewsDmitry Anoshin, 18:32

Инжиниринг Данных

Ух, как мы мощно начали 2021! Я всегда говорю, главная цель #datalearn - это достижение результата и трудоустройство. Благодаря Анастасии Дробышевей, профессионального консультант по рынку труда и карьерному развитию и ее инициативы мы добавили еще один убойный курс - Поиск работы для аналитических специальностей в России и за рубежом, сокращенно Job Hunting - 101 (JH - 101).

За 10 лет Анастасия провела более 2 000 карьерных консультаций, специализируется на IT/ digital, internet & e-commerce. Использует лучшие международные практики, полученные в работе с крупными американскими компаниями. В 2017 г. переехала из России в Словению, поэтому не понаслышке знает о поиске работы за границей.

Задача курса ー описать весь процесс поиска работы и дать вам инструменты для самостоятельного джобхантинга в любой стране.

Для кого курс:
📌Для кого этот курс?!Учебный курс подойдёт для аналитиков данных, инженеров данных, Data Scientist и других смежных профессий.

📌Вы узнаете о 5 этапах поиска работы от постановки цели до подписания трудового договора.

📌Разберем алгоритмы действий на каждом шаге поиска, каналы поиска работы и технологии нетворкинга.

📌Рассмотрим примеры формулировок в Резюме и профиле LinkedIn, готовые скрипты и шаблоны для переписки.

📌В финальной части обсудим, как говорить о зарплате и улучшить условия оффера.

📌В результате обучения вы сможете самостоятельно искать работу в любой стране и выстраивать процесс под свои задачи.

Содержание курса:
📌Урок 1. Стратегия поиска работы - Как грамотно спланировать поиск и поставить цель, опираясь на реалии рынка труда и свои сильные стороны.
📌Урок 2. Маркетинговые материалы - Как сделать сильное Резюме, настроить профили на LinkedIn и GitHub.
📌Урок 3. Поиск вакансий и отклики - Где искать вакансии в России и в других странах. Что делать, чтобы работодатель вас заметил.
📌Урок 4. Нетворкинг - Как развивать свой личный бренд, дружить с нужными людьми и укреплять социальные связи для успешного поиска работы.
📌Урок 5. Интервью и обсуждение оффера - Что важно на каждом этапе интервью и как себя лучше продать. Что хотят от кандидата FAANG-компаний.
📌 Bonus Track: Как не выгореть в процессе и Чек-лист готовности к поиску

Теперь у вас будет абсолютно все, чтобы
а) найти свою первую работу
б) сменить деятельность и начать работать с данными
в) подготовиться к собеседование в любой точке мира, включая компании FAANG

Регистрируйтесь, общайтесь в нашем Slack и помогайте друг другу быть успешней и лучше!

Курс по поиску работы для аналитических специальностей в России и за рубежом

4.54K viewsDmitry Anoshin, edited 03:08

Инжиниринг Данных

Интересное видео про склады Amazon

Amazon Fulfillment Center Tour with AWS

Amazon’s Fulfillment Centers are wonders of automation, with AWS at their core. Take this Fulfillment Center tour to see how Amazon associates, robotics, miles of conveyors, advanced automation and AWS come together to get packages to customers in only one…

2.85K viewsDmitry Anoshin, 18:49

Инжиниринг Данных

Если у вас есть много времени и вы хотите разобраться в построение распределенных системе, то вы можете ознакомится с лекциями MIT. -> MIT 6.824: Distributed Systems (Spring 2020)

2.89K viewsDmitry Anoshin, 18:52

Инжиниринг Данных

Мне нравятся параллели с прошлым. Многое из того, что используем сейчас было сделано давно, но только сейчас становиться популярным. Ссылка: https://thenewstack.io/apache-iceberg-a-different-table-design-for-big-data/

Кто-то работал с Iceberg?

2.71K viewsDmitry Anoshin, 19:19

Инжиниринг Данных

А это CEO Snowflake на обложке Forbes. Я про него читал, он иммигрант из Нидерландов. Он такой, настоящий ковбой, знает, что хочет и добивается. Явно полная противоположность Сатии CEO Microsoft. Я читал, что до Snowflake он уже был на пенсии, тусил с семьей на яхте, и согласился возглавить снежинку, и теперь миллиардер. Я кстати тоже 1000$ заработал на росте акции, с момента IPO.

https://www.forbes.com/sites/alexkonrad/2021/02/01/the-outsider/

2.85K viewsDmitry Anoshin, edited 19:23

Инжиниринг Данных

Еще один python инструмент для ETL и pipelines, выпустил обновление под кодовым названием "The Edge of Glory.” https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

2.76K viewsDmitry Anoshin, 03:57

Инжиниринг Данных

Dropbox рассказывает почему выбрали Apache Superset. Я то знаю наперед, у них много программистов, которые могут внедрять такое решение, модифицировать и поддерживать его. А то скучно будет. В статье также сравнительная таблица нескольких BI инструментов и критерии отбора, можно использовать:
-Superset
-Redash
-Mode
-Periscope

Я бы купил табло всем и не парился🤪 Но ребята любят Open Source

Why we chose Apache Superset as our data exploration platform

2.92K viewsDmitry Anoshin, edited 04:02

Инжиниринг Данных

Прислали копию книг Azure Data Factory. 4 автора включая меня это наши ребята и один из technical reviewer, тоже наш человек. Кстати Павел ещё курирует модуль 4 про ETL и сейчас готовит видео по Pentaho DI, где покажет как делать базовые вещи в ETL/DW.

2.87K viewsDmitry Anoshin, 05:59

Инжиниринг Данных

Каждый день я изучаю databricks и прохожу тренинги по нему. И по-моему не зря. Он получил еще млрд инвестиций от Salesforce, AWS и других. Так как я изучаю продукт в Azure, то там вообще всех запутали. Вы можете использовать Synapse Analytics (DW) от Azure, и к нему опционально использовать databricks или писать запросы к Delta таблицам в databricks. А можете использовать только databricks и строить Delta Lake. Но в Azure про это совсем не четко написано, как будто их задача, чтобы вы использовали Synapse + Databricks, да и только.

Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее

Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.

Databricks Raises $1 Billion Series G Investment at $28 Billion Valuation

Databricks, the Data and AI company, today announced a $1 Billion investment in response to the rapid global adoption of its unified data platform.

2.95K viewsDmitry Anoshin, 17:19

Инжиниринг Данных

2.74K viewsDmitry Anoshin, 05:31

Инжиниринг Данных

Хороший заголовок - В будущем вы сможете работать удаленно откуда угодно и сколько угодно часов и получать туже зарплату. Для меня будущее наступило года 2 назад.😎

The Future Will Entail Working Anywhere You’d Like And The Hours You Want, While Receiving The Same Pay

We tend to think of the future in terms of seismic shifts. The more reasonable reality for the future of work is there will be incremental changes that will blossom into full-blown established trends.

2.77K viewsDmitry Anoshin, 05:35

Инжиниринг Данных

Google cloud пока не оседлал волну и потерял 5 лярдов в 2020, но нагонит ещё.

Google Cloud lost $5.6B in 2020

Google Cloud lost $5.6 billion in Google's fiscal year 2020, which ended December 31. That's on $13 billion of revenue.

2.74K viewsDmitry Anoshin, edited 06:32