Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А это я с Kent Graziano (который будет выступать на вебинары выше) на kick off Snowflake Vancouver User Group. Он является chief evangelist в Snowflake с начала основания компании. До этого он был Oracle консультантом и блогером, имел статус Oracle Ace Director. На встречи он рассказал как пришел в Snowflake и насколько его поразила способность Snowflake работать с BigData без Hadoop и MapReduce. Просто загружаем ТБ данных и пишем SQL и все работает. Это наверно было 2012-13 год. Все еще активно говорили про Hadoop, о том как он заменит хранилище данных, но в итоге Cloudera и Hortonworks объединились и им это не помогло. Технологии Hadoop отлично послужила, но все ушло вперед. Облако принесло elasticity, контейнеры, и Snowflake использовал преимущества новых технологий и создали революционный продукт.
Как вам подкасты? Вот data science podcast. Я вообще не могу воспринимать такую информацию на слух, мне нужна картинка, ну или текст (лучше с картинками). Из аудио я только послушал книгу Гарри Поттер, когда учил английский, ее озвучил Stephan Fry. Если учите английский, прям очень советую!
А вот для ваших детей, Snowflake книжку раскраску выпустил, маркетинг на уровне! Кстати хорошая идея для бизнеса.
20 апреля мы сделаем бесплатный вебинар с Нетологией, где я расскажу про свой опыт с Data Engineering, устройство на работу за границей и про возможности эммиграции. Регистрируйтесь и приглашайте друзей.
Смотрите сколько ресурсов:
1. Pluralsight - entire catalog of courses free with #FREEapril: https://lnkd.in/d6fhFsP

2. Tableau eLearning, 90 days free with the code 2020learning - https://lnkd.in/dFDg5jv

3. Qlik's Data Literacy Project eLearning (always free): https://lnkd.in/dr6sPUE

4. edX free course "Analyzing and Visualizing Data with Power BI" - https://lnkd.in/dyKYRM6 (audit path free, $99 for "verified" path)

5. ThoughtSpot U - Free eLearning for Business Users, Business Analysts, Data Experts & Architects: https://lnkd.in/dvcWV8v

6. Looker University - 6 free elearning courses: https://lnkd.in/drrsmVr
Для меня аналитика это пересечение технологий, данных и дизайна. Интересная статья от Вадим про всем известные продукты и их дизайн.
Недавно писал про Гарри Поттера на английском, теперь его можно слушать бесплатно в Audible https://stories.audible.com/pdp/B017V54W6O?ref_=pe_25733880_489915460 (Amazon Subsidiary)
Когда мы говорил об аналитики, то часто мы говорим о том, что вверху айсберга. Всегда хорошо понимать весь цикл потока данных, от системы источника, до показателей и инсайтов.

Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).

Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.
А вот тот же framework, но уже с различными решения
У меня не очень полулось влезть в консалтинг партнеры для Snowflake, но зато, как обычно получлось через Community. Snowflake присвоил мне статус Super Data Hero - это максимальный уровень в community. Не уверен, что это как-то поможет, но еще раз говорит что активное участие в сообществах всегда благотворно влияет на нетворкинг и позволяет создавать дополнительные возможности.
Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.
Сегодня был Webinar на котором показали архитектуру платформы данных на базе Google Cloud Platform и Snowflake
👍1
Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068
Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.

Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.

VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.

PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики

Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.

matplotlib - библиотека для создание графиков и 2х мерной визуализации.

IPython - продвинутая среда для Python

SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).

scikit-learn - библиотека для ML

statsmodels - статистический пакет

А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Think Python, 2nd Edition.pdf
3.2 MB
Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.