Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Одно из самых популярных решений для интеграции данных это Open source продукт Apache Airflow. Достаточно популярен в Amazon. Я еще до него не добрался, вот отличный пример как Lyft его использует. Ближайший сосед Airflow, это Apache SuperSet, BI решение.
Обзор решений хранилищ данных от G2, Snowflake и Redshift лидируют. Я думаю Redshift лидирует по кол-ву клиентов и популярности, а Snowflake на хайпе. https://www.g2.com/categories/data-warehouse
А еще недавно, компании Teradata исполнилось 40 лет. Это мое самое любимое место работы в Москве. Несмотря на то, что менеджмент там все похерил, все равно это замечательная компания, которая кстати первая создала аналитическое хранилище данных и внедрила его в массы. https://www.datanami.com/2019/06/14/teradata-turns-40-takes-off-gloves-readies-for-a-fight
18 июля Онлайн Конференция AWS, где вы можету послушать и поучиться про иснтрументы для работы с данными https://aws.amazon.com/events/aws-innovate/
поддерживает московское время
«Иногда для решения самых сложных задач требуется меньше усилий».

Если вы любите выполнять работу быстро, но часто так же быстро страдаете от ограничений процесса - то книга Спринт Джейка Кнаппа, в которой описан усовершенствованный инновационный подход, используемый в Google Ventures будет вам интересна. Это книга будеи интересна руководителям, владельцам цифровых продуктов, а также дизайнерам / разработчикам - редко можно отнести одну книгу к категории всех этих профессий.

Одна из замечательных особенностей этой книги заключается в том, что в ней рассматриваются некоторые основные аспекты гибкой / бережливой методологии, но она объединяет их в прагматичную и полезную структуру. Сосредоточение внимания на небольшой автономной команде с четкими целями и небольшими размерами партий звучит как основа для гибкой команды разработчиков, но в этом случае эти концепции используются для быстрых целенаправленных инноваций.
Интересная статья про сравнения Oracle (классическое решение для хранилищ данных) и Snowflake (современное облачное решение) от человека, который работал с Oracle с 1987 года. https://www.analytics.today/blog/oracle-vs-snowflake
“Using Oracle on a DEC VAX was like going from a model T-Ford to a Porsche 911 at half the cost.” - то есть идея понятна, когда Oracle вышел на рынке, это был прорыв. Новый подход и новая технология. Так же было и с Amazon, проект, о котором я рассказывал - Rolling Stone (отказ от Oracle баз данных и миграция на AWS), не потому что Oracle плохой, просто в его основе лежат устаревшие технологии. В то времчя. когда Amazon начинал строить свое решение, Oracle был лучшим решение на рынке, но с развитие облачных вычисление, он потерял свои позиции. У вас все еще есть возможность построить решение на Oracle on-premise, которое будет быстрым, но его цена может быть в 10-50 раз больше, например за цену Redshift. А теперь, возможно, тоже самое происходит и со Snowflake, это продукт обещает вам Porshe 911 за пол цены. Я не работал с крупным внедрение Snowflake и не могу сказать, но среднее хранилище 10-20ТБ, работает без проблем, и действивтельно и дешевле и быстрей.
Согласно последнему отчету World Economic искуственный интелект (AI), сможет самостаятельно решать следующие задачи в будущем. Но это не значит, что всем надо бежать учить AI, и это нам даст гарантированно высокую зп. Я много раз говорил, ваша ценность в том, как вы можете помочь бизнесу стать эффективней. Для этого часто достаточно знания Excel и понимание бизнес процессов. Сделайте шаг назад от фокуса на конкретную технологию, и попробуйте понять, какую проблему вы хотите решить.