Инжиниринг Данных
23.4K subscribers
1.91K photos
56 videos
189 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?
Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).

Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap
Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.

На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.

Также и на Google Cloud. Я не знаю названий сервисов.

Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.

====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".

Мы рассмотрим эти варианты 1 и 2 на datalearn.
Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.

Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄
Я уже говорил, что data engineer и data scientist это лучшие друзья, у каждого есть свои сильные стороны и вместе они могут решить задачу. В Амазон есть специальный сервис, где можно писать благодарности, за 4,5 год это моя первая, за созданные Redshift кластер, который я подключил ко всем сервисам и помог ускорить процесс создания моделей для customer perception.

Для SDE (разработчики ситуация наоборот, обычно спорим😤)

Что касается измерения perception, то это просто - опросы. А вот, чтобы создать методологию, выбрать вопросы, семплирование клиентов и потом сделать проекцию семпла на всех клиентов амазон, это уже сложно. Есть позиция Economist Scientist - это такой phd, почти профессор, кто знает толк в определенной области, он разрабатывает методологию, и data scientist уже делает модель, больше как рабочие руки. Ну а data engineer вообще черно рабочий, мне нужно предоставить данные по clickstream, server side и тп, все автоматизировать и настроить, для Северной Америки и Европы, не забыть про privacy.
Роман Понамарев полностью взял контроль над вебинарами🚀 Вот ловите следующий и не пропустите:

Друзья, всем привет!
Пока Дмитрий готовит порцию новых видео, я вас помучаю вебинарами.
Дата вебинара: 18 сентября в 20:00 по мск
Наш следующий гость - это
Марина Крюкова, она BI инженер в Amazon!

О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает за регион Бразилия. До этого 1,5 года работала в ритейле в департаменте Сonsumer electronics. Ее образование в сфере управления персоналом, до переезда в США жила в Москве и несколько лет работала рекрутером в компаниях LG Electronics и Xerox.
Тема вебинара - Изменение карьеры и работа в сфере аналитики в США

Содержание:
- Поиск работы в США
- Смена направления из Рекрутмента в Data
- Работа на позициях Business analyst/Business intelligence engineer

Ссылка на вебинар:
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
Не забудьте подписаться на канал и заклацать колокольчик!🙏
Сегодня я постараюсь купить акций SNOW. Никогда раньше не покупал, вы покупаете акции?
Как работают A/B тесты? А вот как. Кстати какой самый любимы ресурс по A/B тестам, где просто и понятно про них рассказано и на примере можно посмотреть?
Вы можете узнать больше почему Snowflake так крут. 1 октября канадский офис будет делать deep dive, где можно узнать все особенности решения.
Old recommender systems before Amazon, Netflix, and Youtube
Роман Понаморов (сооснователь datalearn) поднял хорошую тему, я полностью его поддерживаю. От себя могу сказать, что на западе ситуация кардинально противоположная в хорошем смысле этого слова. Надеюсь с годами ситуацию улучшиться и люди станут добрее друг к другу.

Вот текст из нашего слака:

@channel
Ребята всем привет, пост будет эмоциональным, возможно с матом, ибо накипело и бомбануло!

Давно наблюдаю в русскоязычной IT среде очень сильную кислотность, не могу понять, откуда столько злости и желания задеть и оскорбить другого человека.
Независимо от форумов будь то Хабр, VC, Cossa, под статьями, особенно, которые пишут новички, найдется довольно таки большое количество токсичных персон, цель которых не прокомментировать пост, а унизить автора и показать собственную значимость.

Когда я это все читаю. у меня всегда в голове вопрос, который до сих пор без ответа, зачем вам это все, какую цель вы преследуете, что вам это дает или даст в жизни?
Я согласен с тем, что некомпетентную статью можно разъ*бать по фактам, критика это всегда хорошо, но зачем вектор своих комментариев направлять на личность самого автора?

Если что, мы в даталеарн за любую критику, но против бестактности и оскорблений. Если вам не нравиться материал или подача, пишите, критикуйте по пунктам, так будет продуктивно и полезно как для вас, так и для проекта.

Мы растем и на наших лекциях начали присутствовать "гости", которые пришли повыпендриваться и нагадить. Зачем писать комментарии в чате никак не связанные с темой вебинар, но направленные, на то, чтобы задеть выступающего спикера? По-моему мнению, этим, такие комментаторы демонстрирует не наличие большой пипирки, а пытаются компенсировать ее отсутствие мнимым самоутверждением.

Мы проводим огромную работу по договоренностям и организации выступлений наших спикеров и стремимся, чтобы они для вас давали максимально полезную информацию и по-возможности инстайты, о которых вам мало кто расскажет или это инфы просто нет, поэтому говорю безпипирочным: вы ошиблись и вошли не в ту дверь.

Если вы выскочки и вам не терпеться продемонстрировать свои навыки, почему вы это делаете в токсичной плоскости, а когда вас зовешь в прямой эфир, чтобы вы конструктивно и по факту высказались, вы молчите?

Да многие из вас профики и по-настоещему спецы в каких-то областях и по набору своих навыков и знаний можете вы*ебываться по праву, но делайте это с присутствием чувства такта, чтобы вас уважали и ценили.
Какая разница какие у вас навыки и заслуги, руководитель вы или большой босс, если вы ведете себя так, что вызываете отвращение у ваших коллег и подчиненных и они с вами выстраивают коммуникации не чтобы у вас чему-то поучиться, а потому что так надо, по рангу суббординации.

И если кто-то хочет померится у кого больше, то давайте линейкой будет не острота бестактности и унижений, а польза, которую вы можете передать большому количеству людей! Если у вас есть стремление и желание продемонстрировать свои скилы, то я с удовольствием предоставлю вам эфирное время и если вы расскажите так круто, что другие будут вам аплодировать, то естественно про вас будут думать: "Базару нет - там реально большой"
Если пропустили вебинары, то есть запись.

Содержание вебинара:
📌 Поиск работы в США
📌 Смена направления из Рекрутмента в Data
📌 Работа на позициях Business analyst/Business intelligence engineer

Таймлайн:
0:00 - Вступительное слово общее
2:26 - Вступления и содержание вебинара от Марины Крюковой
3:30 - Начало презентации
4:05 - Изменение карьеры: из рекрутера в BI Engineer
7:00 - Рассказывает как выиграла грин карту
7:58 - Карьерный путь
11:00 - Начало в США
12:20 - Поиск работы в США
17:00 - Как оказалась в Амазон
17:50 - HR Assistant (Payroll)
19:55 - Systems Analytics (Recruting systems)
22:50 - Systems Analytics (Financial systems)
24:40 - Путь от системного аналитика к BI Engineer
28:50 - BI Engineer
30:15 - Начало работы в retail Amazon
32:09 - Позиция BI инженера в Retail
35:00 - Переход в новую организацию и поиск команд
36:57 - Команда Prime video
37:50 - Работа в Prime video
39:00 - Смена карьеры и как определить чем вы хотите заниматься
45:00 - Что востребовано на рынке труда
45:50 - Определиться что хорошо получается и определить долгосрочные цели
48:00 - Перечень действий что нужно делать
1:00:00 - Ответы на вопросы
Всем привет! Инжиниринг данных становиться все популярней и мы решили взять инициативу в свои руки и сделать первую конференцию по Инжинирингу данных и облачной аналитике в онлайне. Решили полностью уйти от формата 1-2 дня конференции, который в режиме онлайн работает не так эффективно как офлайн. Это дает возможность сделать конференцию глобальной для русского говорящего сообщества и растянуть ее на любой время, где каждую неделю будет 1-3 доклада, что-то вроде серии вебинаров.

Раньше мне очень не хватало конференций и материалов по использованию классических хранилищ данных, BI систем. Конференцию были сдвинуты в сторону разработчиков - high load систем или в сторону определенной бизнес функции HR, маркетинг, финансы и тп. Мы хотим на первый план вынести технологии и подходы.

Другая идея, это привлечь не только супер стар спикеров, но и дать возможность всем желающим выступить со своим докладом и проектом. Будет несколько стримов:
- Data Engineering (Data Integration)
- Cloud Fundamentals
- Python for Data Analytics
- Business Intelligence and Data Visualization
- Data Warehouse
- BigData
- Data Science
- Analytics Team development
- Building Career in Analytics
- Data product management

Мы еще обдумываем концепцию и сделаем лендинг и форму подачи заявок на конференцию. Если у вас есть идеи и вы хотите вписаться в организацию конференции по инжинирингу данных для русскоговорящего сообщества, напишите мне или Роману @rspon.