Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Авто книги Designing Data-Intensive Applications является создателем Apache Kafka
Еще одна крутая книга от 2003 года
Основные темы затронуты в этой книге:
Ах, откуда столько информации? Это principal engineer дает презентацию в нашем орге.
Очень прикольная мысль, Первое решение, которое создается как правило MVP, прототип которые делаем минимум вещей.

Вторая версия решения, это самое ужасное, что можно сделать.

А вот третья версия решения, уже ничего.
Классную штуку я нашел:
What is a Data Engineering Immersion Day?

Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.


Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation


https://aws-dataengineering-day.workshop.aws/
В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?
Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).

Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap
Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.

На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.

Также и на Google Cloud. Я не знаю названий сервисов.

Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.

====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".

Мы рассмотрим эти варианты 1 и 2 на datalearn.
Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.

Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄
Я уже говорил, что data engineer и data scientist это лучшие друзья, у каждого есть свои сильные стороны и вместе они могут решить задачу. В Амазон есть специальный сервис, где можно писать благодарности, за 4,5 год это моя первая, за созданные Redshift кластер, который я подключил ко всем сервисам и помог ускорить процесс создания моделей для customer perception.

Для SDE (разработчики ситуация наоборот, обычно спорим😤)

Что касается измерения perception, то это просто - опросы. А вот, чтобы создать методологию, выбрать вопросы, семплирование клиентов и потом сделать проекцию семпла на всех клиентов амазон, это уже сложно. Есть позиция Economist Scientist - это такой phd, почти профессор, кто знает толк в определенной области, он разрабатывает методологию, и data scientist уже делает модель, больше как рабочие руки. Ну а data engineer вообще черно рабочий, мне нужно предоставить данные по clickstream, server side и тп, все автоматизировать и настроить, для Северной Америки и Европы, не забыть про privacy.
Роман Понамарев полностью взял контроль над вебинарами🚀 Вот ловите следующий и не пропустите:

Друзья, всем привет!
Пока Дмитрий готовит порцию новых видео, я вас помучаю вебинарами.
Дата вебинара: 18 сентября в 20:00 по мск
Наш следующий гость - это
Марина Крюкова, она BI инженер в Amazon!

О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает за регион Бразилия. До этого 1,5 года работала в ритейле в департаменте Сonsumer electronics. Ее образование в сфере управления персоналом, до переезда в США жила в Москве и несколько лет работала рекрутером в компаниях LG Electronics и Xerox.
Тема вебинара - Изменение карьеры и работа в сфере аналитики в США

Содержание:
- Поиск работы в США
- Смена направления из Рекрутмента в Data
- Работа на позициях Business analyst/Business intelligence engineer

Ссылка на вебинар:
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
Не забудьте подписаться на канал и заклацать колокольчик!🙏
Сегодня я постараюсь купить акций SNOW. Никогда раньше не покупал, вы покупаете акции?