Если вы совсем новичок и хотите работать с данными, то можно начать с простого - с Экселя. Вот и курс. Курсы на английском. Это хорошо, нам не нужно искать легких путей. Все термины по аналитике на английском, не обходите курсы на английском.
В Алексе мне часто приходиться првоодить собеседования для BI и Data Engineer. Я это очень не люблю. Собеседование занимает 1 час, потом еще надо писать подробный отчет, это еще 30 минут. Самое обидное в этой истории, что на эти вакансии я собеседую только специалистов из индии. Они классные ребята, они учатся программирования с детского садика, в их резюме можно найти все технологии мира и все ключевые слова по специальности, они знают все и ничего не знают. Например скоро буду собеседовать Top-Tier IT Consultant (Data Management Expert | Innovation Leader | Visualization Enthusiast), это я не придумал, а скопировал у него.
Меня больше интересует вопрос, что делают Канадцы и Американцы? Почему все Research Scientist/Data Science позиции занимают китайцы, а все BI/DE/BigData индусы. Конечно есть и местные ребята и из Европы из России и Украины, но это больше исключение из правил. Одно можно сказать точно, они могут хреначить круглосуточно (учиться, работать, карабкаться вверх). За счет этого они пробиваются вверх. Шансы у всех равны и возможности тоже, а вот мотивация разная. Если бы мне попался русскоговорящий кандидат, я бы наверно обрадовался; Другой вопрос, что собеседования в Амазон построены таким образом, что сразу собеседуют 5-6 человек и каждый отвечает за свою маленькую область.
Меня больше интересует вопрос, что делают Канадцы и Американцы? Почему все Research Scientist/Data Science позиции занимают китайцы, а все BI/DE/BigData индусы. Конечно есть и местные ребята и из Европы из России и Украины, но это больше исключение из правил. Одно можно сказать точно, они могут хреначить круглосуточно (учиться, работать, карабкаться вверх). За счет этого они пробиваются вверх. Шансы у всех равны и возможности тоже, а вот мотивация разная. Если бы мне попался русскоговорящий кандидат, я бы наверно обрадовался; Другой вопрос, что собеседования в Амазон построены таким образом, что сразу собеседуют 5-6 человек и каждый отвечает за свою маленькую область.
Отличный white paper - Google BigQuery экономически выгодное решение и стоимость TCO (Total Cost of Ownership - цена владения) 26-34% меньше, чем у аналогов. Конечно, тут и маркетинг, но в целом облачное хранилище дешевле и проще в эксплуатации.
Яндекс успешно развивает облако в России. Вот запись с последнего мероприятия Yandex Scale
YouTube
Yandex Scale. Красный зал
Yandex Scale - первая большая конференция Яндекс.Облака.
Трансляция осуществляется из трёх залов. Кроме Красного вы также можете посетить:
Синий зал - https://youtu.be/Hdc7UBRXBKU
Жёлтый зал - https://youtu.be/ICcZpw7o8RI
Ознакомиться с программой всех…
Трансляция осуществляется из трёх залов. Кроме Красного вы также можете посетить:
Синий зал - https://youtu.be/Hdc7UBRXBKU
Жёлтый зал - https://youtu.be/ICcZpw7o8RI
Ознакомиться с программой всех…
Чувак, который создавал Apache SuperSet (open source BI) и Apache Airflow (open-source ELT) создал новую компанию это коммерческая версия SuperSet. Должно быть, что-то дельное.
preset.io
Modern BI Powered by Open Source Apache Superset™
Powerful, easy to use data exploration and visualization platform, powered by open-source Apache Superset™. Modern business intelligence for your entire organization.
Завтра в Ванкувере выступаю на Табло Юзер группе. В Ванкувере есть офис Табло, но там разработка продукта именно. На картине одна из фич Snowflake - возможность писать запросы прям поверх semi structured файлов (Avro, Parquet, XML, JSON). Обычно, чтобы писать запросы к таким данным, нам нужно распарсить это все дело ETL/ELT и сохранить результат в DW или же мы будем использовать Hadoop+(SparkHive/Presto и тп) чтобы все это дело преобразовать, то есть целое решение Big Data надо построить. А у Snowflake есть тип данных Variant, он хранит такие файлы и можно писать запросы, как на картинке. Еще в Snowflake есть sample погоды, ну как sample 240 млн строк и 400Gb. В общем им я покажу Ванкувер. Ради интереса выбрал Россию, это Лето 2019 года, максимальная температура по городам. Кстати есть очень крутые кейсы когда открытые данные погоды используют для бизнес аналитики. Я о таком мечтал в 2011 году в Сбербанке на проекте Терадаты. Ну в общем там всем было на погоду ***😇
Подкаст про дата инжиниринг https://www.dataengineeringpodcast.com/kedro-data-pipeline-episode-100/
Data Engineering Podcast
Ship Faster With An Opinionated Data Pipeline Framework - Episode 100
Building an end-to-end pipeline for your machine learning projects is a complex task, made more difficult by the variety of ways that you can structure it. Kedro is a framework that provides an opinionated workflow that lets you focus on the parts that matter…
Табло выпустил Tableau Hyper API, как известно хайпер это поколоначная база данных и теперь у нас есть возможность писать к ней запросы и меня содержимое использую SQL.
Tableau
Tableau Hyper API
Documentation for the Tableau Hyper API