А это я с Kent Graziano (который будет выступать на вебинары выше) на kick off Snowflake Vancouver User Group. Он является chief evangelist в Snowflake с начала основания компании. До этого он был Oracle консультантом и блогером, имел статус Oracle Ace Director. На встречи он рассказал как пришел в Snowflake и насколько его поразила способность Snowflake работать с BigData без Hadoop и MapReduce. Просто загружаем ТБ данных и пишем SQL и все работает. Это наверно было 2012-13 год. Все еще активно говорили про Hadoop, о том как он заменит хранилище данных, но в итоге Cloudera и Hortonworks объединились и им это не помогло. Технологии Hadoop отлично послужила, но все ушло вперед. Облако принесло elasticity, контейнеры, и Snowflake использовал преимущества новых технологий и создали революционный продукт.
Как вам подкасты? Вот data science podcast. Я вообще не могу воспринимать такую информацию на слух, мне нужна картинка, ну или текст (лучше с картинками). Из аудио я только послушал книгу Гарри Поттер, когда учил английский, ее озвучил Stephan Fry. Если учите английский, прям очень советую!
А вот для ваших детей, Snowflake книжку раскраску выпустил, маркетинг на уровне! Кстати хорошая идея для бизнеса.
20 апреля мы сделаем бесплатный вебинар с Нетологией, где я расскажу про свой опыт с Data Engineering, устройство на работу за границей и про возможности эммиграции. Регистрируйтесь и приглашайте друзей.
netology.ru
Data Engineering в России и за границей – бесплатный вебинар
Расскажем, как найти работу в сфере данных в России и заграницей и успешно пройти собеседование, а также поделимся историями переквалификации людей с разным опытом в работу с данными.
Смотрите сколько ресурсов:
1. Pluralsight - entire catalog of courses free with #FREEapril: https://lnkd.in/d6fhFsP
2. Tableau eLearning, 90 days free with the code 2020learning - https://lnkd.in/dFDg5jv
3. Qlik's Data Literacy Project eLearning (always free): https://lnkd.in/dr6sPUE
4. edX free course "Analyzing and Visualizing Data with Power BI" - https://lnkd.in/dyKYRM6 (audit path free, $99 for "verified" path)
5. ThoughtSpot U - Free eLearning for Business Users, Business Analysts, Data Experts & Architects: https://lnkd.in/dvcWV8v
6. Looker University - 6 free elearning courses: https://lnkd.in/drrsmVr
1. Pluralsight - entire catalog of courses free with #FREEapril: https://lnkd.in/d6fhFsP
2. Tableau eLearning, 90 days free with the code 2020learning - https://lnkd.in/dFDg5jv
3. Qlik's Data Literacy Project eLearning (always free): https://lnkd.in/dr6sPUE
4. edX free course "Analyzing and Visualizing Data with Power BI" - https://lnkd.in/dyKYRM6 (audit path free, $99 for "verified" path)
5. ThoughtSpot U - Free eLearning for Business Users, Business Analysts, Data Experts & Architects: https://lnkd.in/dvcWV8v
6. Looker University - 6 free elearning courses: https://lnkd.in/drrsmVr
Pluralsight
Pluralsight - The tech workforce development company
Pluralsight helps organizations, teams, and individuals build better products with online courses and data-driven insights that fuel skill development and improve processes.
Для меня аналитика это пересечение технологий, данных и дизайна. Интересная статья от Вадим про всем известные продукты и их дизайн.
Medium
Design That Changed The World
There is quite an interesting story behind every ordinary object. Here are the stories of a ballpoint pen, a lighter and a safe razor.
ML помогает бороться с COVID-19 https://www.forbes.com/sites/maneetahuja/2020/04/13/exclusive-amazon-is-powering-the-coronavirus-diagnostics-of-the-future/#545deb453f44
Forbes
Exclusive: Amazon Is Powering The Coronavirus Diagnostics Of The Future
Amazon’s titanic AWS platform is supporting the largest global dataset of COVID-19 CT scans in Canada, remote electrocardiogram readings in China and machine learning to estimate unreported infections at the Chan Zuckerberg Biohub in the U.S.
Если вы вдруг работаете или планируете начать работать с Microsoft Azure, то вот отличный обзор учебных ресурсов для Data Engineer. https://youtu.be/ceOSlyc2J0g
YouTube
How to become a Data Engineer in 2021 FOR FREE!!!
I run through free tools and resources so you can become a Data Engineer for free!
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
Недавно писал про Гарри Поттера на английском, теперь его можно слушать бесплатно в Audible https://stories.audible.com/pdp/B017V54W6O?ref_=pe_25733880_489915460 (Amazon Subsidiary)
Когда мы говорил об аналитики, то часто мы говорим о том, что вверху айсберга. Всегда хорошо понимать весь цикл потока данных, от системы источника, до показателей и инсайтов.
Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).
Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.
Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).
Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.
У меня не очень полулось влезть в консалтинг партнеры для Snowflake, но зато, как обычно получлось через Community. Snowflake присвоил мне статус Super Data Hero - это максимальный уровень в community. Не уверен, что это как-то поможет, но еще раз говорит что активное участие в сообществах всегда благотворно влияет на нетворкинг и позволяет создавать дополнительные возможности.
Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.
vc.ru
О собеседовании в Amazon: какие вопросы будут задавать на интервью и что нужно знать заранее — Карьера на vc.ru
Альберт Хабибрахимов Карьера 20.12.2019
Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068
www.slideshare.net
My experience of writing technical books
My experience of writing technical books - Download as a PDF or view online for free
Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Plotly
Data Apps for Production | Plotly
Discover data applications for production with Plotly. Put data and AI into action with scalable, interactive data apps for your organization.
Think Python, 2nd Edition.pdf
3.2 MB
Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.
Мощный заголовок - https://goodstrat.com/2020/04/15/bullshit-at-the-data-lakehouse/
GOOD STRATEGY
Bullshit at the Data Lakehouse
Martyn Richard Jones San Martiño de Bandoxa 15th April 2020 ADVERT: LAUGHING@BIGDATA – THE GREATEST DATA STORY EVER TOLD! laughing@bigdata A new ebook about Agile, AI, data, deep le…