Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если вы следите за трендами в индустрии, то знаете Snowflake. Хотя это слово у меня в канале в топ key words)) В общем, теперь же это платформа данных. Вот один из аргументов, у Snowflake есть утилитка - SnowSQL это CLI тул через командную строку, хотят такой же был и у Терадата, вроде BTEQ. Но есть и еще один - SnowPipe, это такая штука для потока данных в Snowflake. Вот тут подробности.
Я бы заменил Infrastructure Engineer на SysAdmin. Часто нужно помощь с настройкой доступов, аутентификации, сетей и тп. В облачных решениях отпадает надобность в инженерах, которые обслуживают Hardware и занимается установкой Software. Очень классно поделили на Doeкs и Thinkers! А вы кто?
Небольшой update по Startup School от Y Combinator. Прошла неделя 1. Посмотрел 3 видео, очень классные, все применимо даже для обычного BI разработчика, если подумать, что ваш проект (отчет?) это стартап, и вы решаете проблему (боль) клиента.

Они предлагали пообщаться с другим стартапами в группах, по 4 компании. Почему бы и нет. Я думал, послушаю, как люди делают стартапы, а получось очень даже интересно. Один стартап вообще без беты был, один чувак пилет приложение какое-то, зато в Ванкувере живет. А вот другой был из LA, у них приложение для каких-то видео мемов. Даже инвестиции получили. (Как минимум для вас бесплатная практика английского и можно любые вопросы задавать, а вдруг на работу еще возьмут!). А вот это компания https://www.productlift.io/ (из Ванкувера) ищет co-founder (разработчика), если кому интересно, могу познакомить (отличный вариант поучиться создавать приложения на AWS, говорить по английски и изучать продуктовую аналитику на реальных клиентах).

Я им рассказал про Rock Your Data, они сначала ничего не поняли (то есть я толком не могу рассказать, что я предлагаю), потом они поняли. Оказалось, что это прям боль стартапов - аналитики, платформа данных и метрики в дашбордах. Договрились, что я им почти за бесплатно попробую сделать аналитическое решение, и у меня будет reference и у меня будет, что предложить другим. Возможно пытаясь продавать услуги в Medium и Enterprise это сложно и требует связей, посмотрим как у стартапов. И самое главное, если классная компания - Fishtown Analytics, которая только это и делает и не нужно изобретать велосипед.

Кстати через них зашел на BI инструмент Mode. Я его знаю, это такой SQL friendly Cloud Native BI. Оказывается бесплатный до 4гб и одного пользователя. Делаете Аналитику для себя? Стоит попробовать, в качестве DW можно взять BigQuery (до 5Гб фрии в год) или Azure SQL Server (12 months free). Или платить копеечку AWS.

Кстати, если вы в ранней стадии и вам нужно аналитическое решение, не стесняйтесь спрашивать, всегда интересно, кто и чего делает, и как.
Вдруг вам будет интересно поучаствовать и поучиться: Х5 проводит масштабный контест по машинному обучению, успейте зарегистрироваться!

RetailHero - это не одно, а сразу три соревнования и конференция 15 февраля 2020! Разыгрываются 1 600 000 ₽ призовых 💰

Организаторами были подготовлены три задачи, чтобы учесть вкусы самых искушённых участников:

Каким клиентам нужно отправить SMS?
Вы не раз могли слышать про Uplift моделирование. А теперь - наконец-то можно его попробовать реализовать самим! В этой задаче необходимо подготовить список клиентов, ранжированный по эффективности коммуникации.
https://retailhero.ai/c/uplift_modeling/

Какие товары клиент купит в следующий раз?
Более серьезная задача, где будет еще и немного ML Engineering с условиями еще и по нагрузке на решение. Тут участникам предстоит построить рекомендательную систему и при этом сделать сервис, который выдержит нагрузку.
https://retailhero.ai/c/recommender_syst

Как расставить товары по полкам?
Для любителей Computer Science, алгоритмов и оптимизации, ACM-style задача. Нужно реализовать алгоритм, который сможет найти самую эффективную расстановку товаров.
https://retailhero.ai/c/shelf_allocation

Участвовать можно хоть в одном соревновании, хоть в двух, хоть в трёх, на ваш выбор! 🙂
Можно в команде. А можно в составах разных команд - в каждой задаче в новой команде 👍🏻
Канал для всех задач в slack ods.ai: https://app.slack.com/client/T040HKJE3/C

Регистрация на соревнование и конференцию, подробное описание задач на странице Retail Hero:
https://retailhero.ai/
👍1🌚1
Удаленная вакансия Data Engineer (AWS, GCP, BI, DW)
— комменты глюкнулись, перепостил.

Всем привет, у меня давно есть идея, начать делать вебинары на русском. В Амазоне я уже 4 года веду BI Tech Talk это 100+ команд Amazon по всему миру, я приглашаю спикеров из амазона или из linkedin. Еще Amazon Tableau User Group, там 2500+ человек, и я приглашаю Tableau Zen Masters выступать. Амазон легко продать и все соглашаются.

В этом канале уже собралось 1777 подписчиков. И иногда я общаюсь с людьми, кто занимается аналитикой, строит решения, и они живут по всему миру и заглядывают на канал. В принципе, можно сделать вебинары, онлайн 1 час, раз в 2 недели + я смогу рассказывать свои презентации на русском, если где-нибудь выступаю. Мне всегда очень интерсно услышать:
- О вашей компании и вашем опыте, если вы заграницей, то как попали туда
- Опционально о вашем доходе (это интересно сравнивать)
- О команде (например BIE + DE + ML + Produсt Manager)
- О вашем проекте, архитектуре, набор инструментов, стоимости решения, сложностях
- Как вы помогаете бизнесу принимать решения на основе данных (Дашборд? Визуализация, сложные модели?)

Главная цель сделать это полезным для рассказчика и слушателей.
- Рассказчик сможет рассказать о себе и проекте и использовать это как портфолио?
- Слушатели смогут узнать что-то новое и применить на практике?

Пожалуйста, напишите ваше мнение в комментариях и если знаете классную платформу для вебинаров, тоже поделитесь и ее ценой. Так же я знаю, есть и другие мероприятия подобное, может быть еще один будет лишней. Все за и против Welcome! и хороших выходных!
Это конечно круто, наши грандмастеры на kaggle хотели всех обмануть и почти получилось, но потом все вскрылось. Оказалось, ребята в свою модель вставили снипет Python, который тупо сканирует сайт и собирает всю информацию, и по факту в 10% процентах случаев вместо предсказания, просто находит 💯 ответ. В общем все это безобразие вскрылось и чувака уволили из H2O (я не давно шарил их open source продукт). В общем жёстко облажались. Это просто epic fail, который подпортил им карьеру. Но в любом случае, ребята умные, добились результата, Python хорошо знают, знаю как модели строить😎. Обидно, что из-за этого пострадали невинные домашние животные и вообще подвели сообщество data scientists. А вы что думаете?
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1,2,3,4

Осталось дописать последние 2 истории. И на этом они закончились, хотя я часто пытался что-то подобное провернуть, но все в холостую. Здесь в Канаде, людям сложно фокусироваться или они не обладают усидчивостью. Люди лучше согласиться сейчас получать меньше, чем через 6 месяцев нормально зарабатывать или просто круг знакомых уже за 30+ и сложно так вот сподвигнуть себя на подвиг.

История 5.
Про Костю Ф. В Москве у нас хороший друг, хороший стоматолог. У его тогдашней жены был брат, который жил в Омске и работал на заводе оператором вышки, которая нефть качала, по-моему он работал на Газпром. Они меня попросили ему помочь, я ему сразу сказала про 2 варианта в Москве:
1) Продавать оборудования для нефтегазовой промышленности
2) BI разработчик
Сошлись на разработчика, установили ему TeamViewer, чтобы я могу удаленно настроить ему компьютер. Установили SAP BO, SQL Server, и конечно же учить SQL на sql-ex.ru (самый крутой сайт для SQL, я его даже в Амазоне рекомендую), у него конечно было куча игр на компе, пришлось все удалить. Месяца 3-4 он учился. Но был вопрос как же из Омска собеседоваться. Мы придумали, что он работает на Газпром и просто в командировке в Омске (кстати отличная идея для тех, кто не в Москве, главное не переборщить, а то будет как гроссмейстеров из поста выше). В общем, попалась вакансию Glowbyte, они вообще крутые, у них даже компания в штатах есть (Tier 1 или как-то так), и про BI/DW все знают, и сильный упор на аналитический CRM, я даже пытался людей переманивать в CleverData от туда (не долго я был вообще в CleverData, если что могу про опыт рассказать). В общем мы откликнулись на вакансию, и ему назначили собеседование по Skype. Время было мало на подготовку и мы вместе прошли это собеседование по скайпу. В итоге его взяли сразу на хорошую зп, да еще переезд оплатили и дали денег на съем квартиры месяца на 2-3. Там он проработал 2 года. Кстати, там в HR он встретил будущую жену. И еще много раз меня выручал, когда я работал в Черногории.

История 6.
Про Колю Б. У нас в Виктории мы случайно познакомились с русскими. Мы особо на улице не знакомимся, но вот сын, всегда любил пальцем показывать и говорить громко на людей за соседним столом “Они по русски говорят!!”. В общем мы познакомились и стали общаться, я как обычно про свой BI. Оказалось, они уже год в Ванкувере, и в Москве Коля был предпринимателем и работал с тендерами. Здесь Коля работал на стройке за 20$ в час (кстати это не плохо, так как платят кешом, есть ребята плитку кладут и получают по от 40 в час, можно работать по 12 часов и без выходных, то есть в Канаде не пропадете). Коля превосходил всех по усидчивости, он просто вгрызался учебники, тренинги и тп. В общем по стандартной программе. Sql-ex.ru, но уже перешли на Tableau, Redshift, Pentaho. Сделали резюме и стали откликаться на вакансии, даже попробовали в Амазон на стажировку, но оказалось , что на стройке он разговаривает по русски, и английский был запущен, в итоге он пошел на курсы английского и еще в школу местную по дизайну БД. В итоге, довольно быстро нашел работу BI, сейчас учит программирование, и вроде интересуется blockchain.

Мораль просто, не важно что вы знаете и что делаете, всегда можно переключиться и начать заниматься чем-то другим, что приносит больше денег, и где есть больше перспектив. Главное, нужно знать короткий путь.
Почему мне нравилось делать такие истории? Несколько причин, главное, я считаю, чем больше отдаешь, тем больше получаешь (что-то вроде от вселенной), помогаешь кому-то просто так, и к тебе вернется в 3 раза больше. Так же мне было интересно обмануть систему (пример гроссмейстеров из кагл меня теперь будет преследовать, наверно нужно иметь четкую грань, что можно, а что нельзя). Под системой я имею ввиду традиционный, шаблонный наем сотрудников, который далек от идеала, где главная задача иметь правильные ключевые слова в резюме, чтобы очень занятый HR смог обратить на вас внимание, и потом нужно еще понравится человеку, который берет вас на работу, для этого нужно сказать, то , что он хочет услышать. Главная задача это попасть, а уже на месте, человек очень быстро адаптируется, если будет усердно работать. Ну и заодно, когда мы учим других, мы учимся сами.

Помимо вебинаров, появилась еще одна идея. Сделать открытый Bootcamp с Redshift, Tableau, Petnaho и тп, все истории и накопленный опыт можно было масштабировать и потом собирать фидбек людей, какие у них успехи и сколько людей дошло до конца. Так же у меня был план программы Data Engineer для SkillFactory (10 модулей) вот и ее можно будет провернуть за 10 недель, а вдруг кому поможет, и всем будет хорошо🤔
Кстати про Хабр, вот комментарий победитель. Пишешь, стараешься, а получается ерунда какая-то!😂🤦‍♂️
Кстати слыша ли вы термин citizen data scientist? В общем это такой человек, которые не учился на data science, но используют приему и техники в работе. Не знаю можно ли назвать его любителем? Это было популярно в 2019, а до меня только сейчас дошло. А вот в 2020 будет citizen data engineer, то есть, вам не обязательно быть крутым инженером и долго на него учиться, достаточно понимать основы и самостоятельно копировать данные для анализа.

Кстати, там же пишут, согласно отчету про ТОП вакансий 2020, data engineer теперь наравне с ML и data science. Но материалов по ML/Data Science настолько много, что можно в них утонуть, а по data engineer все очень скудно пока. По основным навыкам это ETL/ELT,DW,AWS, Python, Spark.

В общем зовите друзей в канал! Будем всех делать Citizen Data Engineer, обязательно придумаю какой-нибудь сертификат, всем, кто пройдет буткемп от начала до конца( осталось только его сделать 🧘‍♂️- bootcamp, но программа уже есть).

Кстати, как вы понимаете citizen DE/DS?

https://insights.dice.com/2020/01/10/citizen-data-engineer-year-2020/
А это ТОП тренды для крутых компаний на 2020!
1) Продолжают мигрировать в облака (не реклама!)
2) Использование гибридных DW/Data Platform, часть в облаках, часть on-premise. Такой переходный этап.
3) Мульты Клауд явно в тренде, это когда мы можешь использовать микс AWS+Azure и тп. Самое главное, вендор это понимает, и создают решения, которые не привязаны к конкретному облаку.
4) Фокус на безопасно и приватность. Ну это всегда было, есть и будет.
5) Рассвет AI (уже компании научились использовать решения), так же решению идут по пути упрощения - пример AWS SageMaker
6) Рост sharing данных и их монетизации. Например, у нас есть много важных и ценных данных, мы можем предоставить доступ клиентам., Самое главное, что это все делается очень просто.
Как выглядит самое современное аналитическое решение от Microsoft? А вот как! Я уже писал про Synapse. Это микс DW+ DataLake. Замена Azure DW. Еще не пробовал, если кто пробовал, то отпишитесь.
Для всех желаующих, самый свежим материал от Microsoft. Они сделали новый воркшоп Analytics in a day, тут и презенташки и лабы и тп. Так что вам можно будет картинки и идеи взять себе на вооружение. https://partner.microsoft.com/en-us/asset/collection/analytics-in-a-day#/
Вы же любите визуализацию? -
Wuhan Coronavirus (2019-nCoV) Global Cases (by Johns Hopkins CSSE)
в реальном времени

https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
Кто-нибудь ходил на Synergy Digital? Там маркетинг, аналитика и тп. Билеты не дешевые, интерсно знать, качество мероприятия. Еще предложили выступить, но в иделе хотели, что бы я за свой счет прилетел 🥴
Директор BI Wargaming рассказал про их setup BI/DW. Рассказал, в чем разница между on-premise DW и Cloud DW. В чем разница между Batch и Streaming все это с наглядными картинками на английском (с русским? акцентом). И все это за 18 минут! Спасибо Оксане, она супер эксперт по мобильной аналитике и мы с ней решили покорить стартапы силиконовой долины, и внедрить им правильную аналитику. Если, что она и вам поможет прокачать ваше приложение.

Так же пару ссылок, на мероприятия, послушать/поучиться в ближайшее время от TDWI
Modern Data Integration for Advanced Analytics, from Self-Service to Predictive Solutions 18 февраля
The Automated Business Glossary: Part and Parcel of BI Intelligence 4 февраля

Кстати, я заметил, что эти ребята TDWI напоминают мне ситуацию с властью в РФ (могу ошибаться, не судите строго), на протяжение лет 7-10 я вижу одни и те же лица, которые слегка меняют свои презентации в стиле 90х, и рассказывает (часто тоже самое) как нужно внедрять аналитику, но прогресс ушел вперед. То же самое я заметил на конференции Enterprise Data Worlds где я был уже 2 года и скоро поеду опять.