Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Вы уже знаете, Snowflake это облачное хранилище данных нового поколения, очень популярное в Штатах и Европе. На него даже мигрируют с Redshift. Он доступен на Azure и AWS. Вот ближайший вебинар https://www.snowflake.com/webinar/snowflake-on-azure-modern-data-analytics-apac/
А вот серия вебинаров по Tableua про Dashboards https://www.tableau.com/learn/series/dashboards
Новый whitepaper - Инструкция для Машинного Обучения. Ничего нового, красивый документ и introduction to ML.
Прошел Google Next. Google серьезно инвестирует в аналитические решения. Сейчас очень много новостей про новый сервис для интеграции данных - Cloud Data Fusion. Можете ознакомиться. Я думаю из плюсов хорошая интеграция с BigQuery и Google сервисами. Но из минусов - нет преднастроенных коннекоторов, например SalesForce, Jira и тп. И нет удобного механизма для создания трансформаций. https://cloud.google.com/blog/products/data-analytics/google-cloud-smart-analytics-accelerates-your-business-transformation?utm_medium=nu_ne_hrena_sebe
Амазон проводит много конференция, но самая инновационная это re:MARS.

Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space

На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))

В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.

После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
Из моей презентации, Озеро Данных - для чайников. На примере, мы делаем фотку, сохраняем в облаком (Ingestion and Storage), фото обрабатывается и собираются метаданные (Process), и мы можем обращаться к данным (Catalog and Search), ну конечно все очень Secure.
А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata