Инжиниринг Данных
23.4K subscribers
1.91K photos
58 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Топ 3 тренда аналитики, согласно TDWI:
1) Визуализации не достаточно. В принципе ее всегда недостаточно. Нужны инсайты, рекомендации для бизнеса. Но идея в том, что на помощь приходит AI, или просто BI продукт вам может подсказать, или предоставить инструменты для удобного анализа данных на базе ML алгоритмов, встроенных в софт. Например Microstrategy+DataRobot, AWS Quicksight имеет много ML примочек, Tableau помогает на эффективней работать с данными и тп.

2) Корпорации идут в облако. Несмотря на то, что AWS уже с 2006 года, все все еще собираются в облако, но уже всем понятно преимущества AWS,Azure, GCP и это уже является частью стратегии компании.

3) Embedded аналитика - то есть продукты (бизнес продукты и сервисы) будут иметь встроенные элементы аналитики, отчетности и визуализации. Например, Tableau мне рассказывала еще летом про упор на Embedded решения. То есть, строим дашборд, копируем embedded java script, прям как youtube ролик, и встраиваем во frontend. И дальше уже решаем вопросы про авторизацию, аунтефикацию, безопасность и перформанс. Если использовать Tableau, это будет дорого, но можно иopensource, как например D3js
Технологии не стоят на месте, новый кластер редшифта - RA3 инстнас (48 vCPUs, 384 GiB оперативной памяти, 64 TB стораджа для одной ноды, а может быть до 128) (раньше были проще DS2 and DC2), позволяет нам получить нереальную скорость и размер хранилища - до 8Pb. Но очень дорого.
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1.
Я только немного разобрался с моей первой работой BI разработчик в Cetelem, BNP Paribas. Подтянул SAP BusinessObjects и SQL. Я реально зубрил термины на англ, так как хотел найти работу за границей. И провалил свое первое собеседование в Ирландию, но это был хороший знак, значит BI разработчик может найти работу за границей. Я сразу стал искать работу в Италии))

Я познакомился на футболе с Костиком, мы 2м не очень были футболистами и тупили у ворот)) Он работал в отделе безопасности, и все, что делал, это только проверял клиентов, прогонял по базам, зп была не высокая, перспективы тоже так себе.

Как лучше всего выучить новый предмет? Это научить другого. Я рассказал Косте о преимуществах работы с BusinessIntelligence. Мы ему настроили SAP BO, SQL, скачали еще SQL Server и SAP BO сервер на домашний комп и он стал учиться. И заодно ему новое резюме придумали. Не помню всех подробностей, но в итоге он устроился в консалтинг по SAP. ЗП сразу увеличилась в 2,5 раза и ему все нравилось. Сейчас мы с ним уже не общаемся, но лет 5 назад у него все было хорошо, в благодарность он подарил наушники, которые досих пор работают с 2010 года. Смена работы и обучение заняло месяцев 6. Но я понял, что это работает.
Пример модульной архитектуры от AWS. Все основные элементы облачной аналитике в деле - AWS аккаунт, VPC (облачная сеть вашего решения Virtual Private Cloud), Privat Subnet (закрытые ресурсы), Public Subnet (открытые ресурсы для пользователей), Bastion Host (linux инстанс, на который мы можем сделать SSH, чтобы уже получить доступ к Private Subnet), Nat Gateway (правила доступа во внешний мир для Private Subnet, Availability Zone (если что-то сломается в одной зоне, другая будет активная, так все серьезные решения в облаке строятся). Дополнительно есть Glue (aws etl), Cloud watch - логи и метрики, как чего у нас работает в облаке, S3 - сторадж (как dropbox почти), KMS - крипто ключ для шифрования данных, IAM - для авторизации и аунтификации; https://aws.amazon.com/quickstart/architecture/amazon-redshift/
Если вы еще не пробовали DBT, то обязательно посмотрите, это такой open source ETL, где мы описываем трансформации с помощью SQL. Пример использования.
Все слышали про Dimensional Modelling? Я думаю многие, кто работал с данными. И это очень частый вопрос на собеседованиях, туда же относиться и про Star Schema vs Snowflake Schema, Slowly Change Dimensions, Junk Dimensions и тп. Это все хорошо написано в учебнике по DW от Кимбала - Data Warehouse Toolkit. Меня как-то спросили в Тинькоф на собеседование про это штуки, и я как-то не уверенно ответил, особенно про вопрос, когда у нас несколько Fact Tables вместе, как их соединять. В общем не попал я к ним, да и ездить не удобно было. А вот Microsoft выписал все самое необходимое, что нужно и можно знать про Dimensional Modelling.

PS в Амазон, мы вообще не паримся про эти штуки=)
Интересная статья, которая может нам показать как визуализации данных может быть неправильна.
"Я уже неделю на работу хожу и ни разу туда ещё не пришел" https://youtu.be/YYXbQjPAIdY
Классная статья про создание платформы данных (мы уже не используем термин хранилище данных). Заодно сравнение Snowflake и BigQuery
15 января будет вебинар про современные аналитические решения - Gaining Faster Insights From Faster Data. Будет много рекламы вендоров, но в целом будет понятно кудам смотрят западные компании.
Пример решения - платформы данных на AWS с использованием ECS, Fargate, Apache Airflow (как orchestration), DBT для трансформаций SQL).
У меня есть задача масштабировать модель оттока для огромных данных на Sage Maker. Вот нашел интересный курс, пока прохожу;
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1.
История 2.

Когда я работал на ГКНПЦ им Хруничева почти 3 года, из моей группы в университете пришел товарищ, его звали Коля. Место мастером ему не было (мастер это начальник отделения рабочих, но для молодых это просто запись в трудовой книжке, по факту, вы возите тележку с металлом из цеха в цех, и так целый день, даже шутка была, профессия мастер это дополнение к тележке). Я уже работал с SAP BO больше года, у нас была новая начальница женщина, я еще тогда был не уверен, что женщина начальник BI/DW это хорошо(теперь я знаю, что женщины руководители это круто), ее звали Екатерина Варламова, они пришла со своей командой, и они поверх Oracle и SAP BO стали внедрять Microsoft SQL Server и Analysis Service. Нужно было зарплату отрабатывать. Но самое главное. С ней совсем не сработались и я стал искать работу.

Очень хотел в Терадата, они же на тренинги в Европу отправляют, это был для меня главный критерий, поэтому я не хотел в отечественный консалнтинг как Крок или АТ Консалтинг, где на собеседование предлагали зарплату в конверте. С Терадатой не очень складывалось, и я нашел какой-то консалтинг по SAP. Наверно был создан по принципу - украли клиентскую база или 1-2 клиента и открыли фирму их обслуживать. На собеседование HR вообще ничего не спрашивали, и дали очень хорошую зарплату. В это время Коля учил по классике SAP BO и SQL. И мы ему уже написали красивое резюме. Я написал этим ребятам, сказал, что я не один, а с другом, и что он вообще крутой, он съездил на собеседование и ему тоже сделали офер.

В итоге, я написал в Терадату про свой офер, и они зашевелились, и наконце прислали офер, по деньгам меньше, но для меня это был один из самых счастливых моментов в карьере. Второй был это Амазон в 2016, когда я приехал из зимнего Винипега в солнечную Викторию. А Коля вышел на работу в SAP консалтинг и проработал там несколько лет.

PS SAP BO очень классный продукт, это Enterprise BI, не такой навороченный как Microstrategy, и есть все элементы которые важно знать - BI Server, desktop клиент, security, Server Administration, Linux/Windows, Server Sizing, и самое главное это Semantic Layer (семантический слой), который называется Universe. Если бы я сейчас поработал в SAP BO, наверно мурашки пробежали)) То есть это такой инструмент, который охватывает много областей в области BI/DW, даже оптимизация запросов. После него Power BI и Tableau кажутся очень простыми.

PPS Очень важно понимать, что SAP это целая экосистема, начиная с SAP ERP, где хранилище данных до сих пор! в крупных компаниях SAP BW (кубы) и трансформации на ABAP, чтобы данные извлекать из ERP. То есть это такой отдельный мир, где много разных модулей и у каждого своя специфика. Сейчас уже многие перешли на SAP HANA.
Книга 250 страниц - Analyzing data with Power BI and Power Pivot for Excel.
Статья про Cloud Native от Google Cloud. Пару цитат:
1) Michael Chui, a partner at McKinsey Global Institute:
“The pace and speed changes,” he says. “You only pay for the things you want, which couples the return on investment more closely [to business needs], creating the opportunity to shift resources from running infrastructure to innovating for the business.”

2)“to achieve the full outcomes and benefits of the cloud, you must operate in a cloud-native fashion. This means operating using a self-service, dynamic, adaptive and elastic operating process in line with the capabilities of a true cloud-native service. When cloud-native operations are combined with cloud-native implementations, organizations are most likely to recognize the full benefits of cloud.”

Именно поэтому компании серьезно оценивают свои возможности на миграцию в облако и в частности миграцию аналитики, так как миграция аналитики может показать очень хороший ROI за короткое время