Когда мы говорил об аналитики, то часто мы говорим о том, что вверху айсберга. Всегда хорошо понимать весь цикл потока данных, от системы источника, до показателей и инсайтов.
Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).
Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.
Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).
Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.
У меня не очень полулось влезть в консалтинг партнеры для Snowflake, но зато, как обычно получлось через Community. Snowflake присвоил мне статус Super Data Hero - это максимальный уровень в community. Не уверен, что это как-то поможет, но еще раз говорит что активное участие в сообществах всегда благотворно влияет на нетворкинг и позволяет создавать дополнительные возможности.
Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.
vc.ru
О собеседовании в Amazon: какие вопросы будут задавать на интервью и что нужно знать заранее
Рассказывает руководитель направления Solutions Architecture в AWS EMEA Emerging Markets Александр Ложечкин на своей странице в Facebook. Редакция vc.ru публикует текст с разрешения автора.
Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068
www.slideshare.net
My experience of writing technical books
My experience of writing technical books - Download as a PDF or view online for free
Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Plotly
Interactive Data Visualization & Data Apps | Plotly
Millions of data teams trust Plotly for interactive data visualization. From open source graphing libraries to production data apps and AI-native analytics, explore what your team can build.
Think Python, 2nd Edition.pdf
3.2 MB
Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.
Мощный заголовок - https://goodstrat.com/2020/04/15/bullshit-at-the-data-lakehouse/
GOOD STRATEGY
Bullshit at the Data Lakehouse
Martyn Richard Jones San Martiño de Bandoxa 15th April 2020 ADVERT: LAUGHING@BIGDATA – THE GREATEST DATA STORY EVER TOLD! laughing@bigdata A new ebook about Agile, AI, data, deep le…
Apache Super Set - open source BI, интересный пост и пример работы инструмента https://preset.io/blog/2020-04-15-github-community-dashboard/
preset.io
Open Sourcing a GitHub Engagement Dashboard
Build a GitHub community dashboard: extract data from the GitHub API, load it into a database, and visualize with Superset.
Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
Хабр
Data Engineer и Data Scientist: какая вообще разница?
Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен...
Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
ML Well Architected Stack от AWS https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine-Learning-Lens.pdf
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?