Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
AWS берет пример с datalearn и учит всех бесплатно. шучу конечно, это борьба за рынок.
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.

Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типов bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.

Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.

В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.

А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Все привет, недавно познакомился с Машей, она ведёт авторский канал телеграм-канал о Python!

В нем:

🔺 топ ошибок новичков,
🔺 лайфхаки и трюки,
🔺 красивый код,
🔺 разбор вопросов с собеседований,

Тем, кто хочет понимать, что пишет: @python_in_depth

Как вы знает Python - это важный элемент для продвинутой аналитики данных, поэтому если вы используете его в работе или учитесь, то возможно будет интересно.
Амазон Редшифт встал как кость поперек горла у основателя Оракл, и при любой возможности, он не упускает возможности про это сказать. Обиделся, что потерял самого жирного клиента в лице Амазон. Вот теперь говорит, что snowflake погубит Redshift. И это действительно так, redshift 2015 года уже давно не конкурент, а вот современный redshift с нодами RA3 (где уже разделение storage и compute и можно хранить вроде 10Pb) серьезный конкурент. Так что благодаря Snowflake, у нас довольно крутой Redshift сейчас и даже data sharing есть, осталось time travel. И у АWS огромные ресурсы сделать его ещё лучше. Они это делают медленно, чтобы у текущих клиентов ничего не сломалось. Azure только недавно выпустил Azure Synapse, сам CEO Microsoft рассказывал про него. А у Microsoft клиентов куры не клюют... В общем, snowflake как явление и продукт это круто. Я, например, не хочу snowflake, это слишком просто будет, лучше помучаться с delta lake от Databricks.
Книга по data science. Согласно описанию совсем введение дают. A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issues, and ethical challenges.
Вы слышали про Саббатикалы? Вот и я нет. Оказывается это крутая тема, вопрос как ее провернуть.

Sabbaticals - a period of paid leave granted to a university teacher or other worker for study or travel, traditionally one year for every seven years worked.

В этом блоге хорошо про это рассказано. Идея в том, чтобы каждые 5-7 лет брать отпуск на год, чтобы позаниматься чем-то другим. Идея тяжелой работы не все нравится, и у некоторых хватает смелости уйти с работы на год и провести время с семьей, научиться готовить или путешествовать (термин популярный до covid).

В общем знайте, что есть такая возможность, и где-то после 30 - это хорошая идея одолжить годик от пенсии и провести его так как нравиться.

PS я пока не могу себе позволить такую роскошь🙄 а как хотелось бы))

А еще цитата понравилась - “They say that Amazon years are like dog years and I definitely feel that because I am burnt out. “ Амазон он такой😑

Вот еще - “Emails, even urgent work emails, can wait for 3/4 hours. If something is that urgent they can call me my phone (If I work for someone that can't tolerate waiting for 4 hours for me to get back to them, they can suck my d*** and find another employee)” Я вообще уже забил на email рабочий и свой, проверяю иногда))
Forwarded from LEFT JOIN
В новом видео по BI-системам говорим о дашборде, построенном в Google DataStudio: как подключить к дашборду датасорс из гугл-таблиц или из других источников, добавить новые фактоиды и настроить данные и визуализации.

Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
Forwarded from Datalytics
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
Мое любимо словосочетание - Analytics Engineering в Spotify.

Кстати у меня в команде не прижилось, оставили BI и Data Engineering. Вообще любые изменения очень болезненны. прихожу я такой умный, и говорю, у вас тут все плохо, работаем по другому, и меняю название команд и тп. Так не работает. Они там годами создавали свое детище. Нужно в лучших традициях Amazon leadership principals использовать Earn Trust. То есть сначала мы просто слушаем и смотрим, делаем, что от нас хотят, и потихоньку начинаем вместе меня процессы, инструменты. Это целая наука про внесение изменений, про это написано много книг. Без этого не получится сделать, что-нибудь значимое. А у вас как с изменениями, пушите на работе в лоб или в обход?:)
В продолжение истории про внесение изменений. Framework от McKinsey. Сейчас в Microsoft проходит games analytics summit и сегодня был доклад от руководителя аналитики, который был крутым челом в McKinsey и потом head of strategic advisory в League of Legends и теперь руководит аналитикой в одной из студий. Его доклад был прям из разряда strategic advisory/consulting, очень круто. Он как раз скинул этот framework.
Подарки от Xbox для newcomers. Обожаю всякие стикеры, значки и другой мерч. Когда-нибудь создадим для datalearn.
Дерево Технологий Инженера данных глазами автора Building data teams. С ним у меня точно расходиться мнения. Тут больше про инженера данных для решения больших данных с помощью кода. Но кому-то будет интересно.
Designing-a-modern-data-platform-on-Google-Cloud.pdf
743.1 KB
Хороший whitepaper от Канадской компании по аналитике, которая являются крутыми партнёрами Google и внедряют решения и модернизируют аналитики с помощью google cloud. Стоит пролистать!

Кстати, мы хотим провести вебинары по 3м темам:
1) end to end analytics solution on AWS
2) end to end analytics solution on Azure
3) end to end analytics solution on GCP

Это хорошо поможет модулю 6 и 8. Я могу рассказать 1 и 2, но это требует время на подготовку. Я уверен есть опытные инженеры кто хорошо разбирается в конкретном облаке и может рассказать какие там сервисы и решения для data warehouse, bi, ETL, bigdata, ml.

Пишите, и сделаем крутые вебинары! А потом может и курс🚀🚀🚀
Всем привет! Пятница и снова хорошие новости и маленькая победа! За рекламный пост, который я расшарю в понедельник утром, организация https://vsevsevmeste.ru/ получила перевод 10т рублей!

PS спасибо за рекомендацию благотворительных организаций выше, мне понравилось, что они делают!
А это поздравления от игры, для которой я делаю аналитику.