Билл Инмон один из отцов основателей хранилищ данных все еще пишет посты в Linkedin, время от времени. Его последний пост был посвящен книге от Snowflake – Облачное Хранилище для Чайников (Cloud Data Warehousing for Dummies). Довольно известная серия, у меня даже в детстве были такие книги про Microsoft Office.
Как обычно Билл категоричен – “They should have renamed the book Data warehouse by dummies, not for dummies”.
Он назвал две причины:
1. Отсутствие информации об интеграции данных: Интеграция данных — это суть любого хранилища данных, составляющая 90% работы над проектом. Однако в книге, по его словам, этот аспект либо проигнорирован, либо упомянут без должного внимания.
2. Отсутствие текста как данных: Текстовые данные играют важную роль в современных хранилищах данных, зачастую не менее значимую, чем структурированные данные. Он критикует авторов за недостаток понимания того, как включать, хранить и использовать текстовую информацию в хранилище данных.
Для меня эти причины не показались настолько весомыми. Я понимаю, что цель книги было прорекламировать Snowflake, поэтому книга бесплатно распространяется. В ней много маркетинга и воды, но и аргументы Билла об использовании текста тоже не очень понятны. Я знаю, что он раньше работал над решением для хранения и обработки текста – Text Analytics Simplified.
Может он сам тут рекламируют свои идеи?
Я бы лучше почитал Ральфа Кимбала по теме хранилищ данных, его Dimensional Modelling как-то ближе и родней.
Как обычно Билл категоричен – “They should have renamed the book Data warehouse by dummies, not for dummies”.
Он назвал две причины:
1. Отсутствие информации об интеграции данных: Интеграция данных — это суть любого хранилища данных, составляющая 90% работы над проектом. Однако в книге, по его словам, этот аспект либо проигнорирован, либо упомянут без должного внимания.
2. Отсутствие текста как данных: Текстовые данные играют важную роль в современных хранилищах данных, зачастую не менее значимую, чем структурированные данные. Он критикует авторов за недостаток понимания того, как включать, хранить и использовать текстовую информацию в хранилище данных.
Для меня эти причины не показались настолько весомыми. Я понимаю, что цель книги было прорекламировать Snowflake, поэтому книга бесплатно распространяется. В ней много маркетинга и воды, но и аргументы Билла об использовании текста тоже не очень понятны. Я знаю, что он раньше работал над решением для хранения и обработки текста – Text Analytics Simplified.
Может он сам тут рекламируют свои идеи?
Я бы лучше почитал Ральфа Кимбала по теме хранилищ данных, его Dimensional Modelling как-то ближе и родней.
Snowflake
Resource Library
Explore Snowflake's Resource Library, featuring ebooks, guides, webinars, and much more to empower your learning journey. Dive in now!
🐳9❤🔥6🍾2🤷♂1
Forwarded from Продакт аналитикс
Перед тем, как вернуться к дальнейшему разбору многосерийной саги «Как быть и что делать с рынком состояния хуже некуда» , предлагаю стряхнуть пыль со своего ютуба , ведь уже завтра мы встретимся с
Димой Аношиным - экспертом по дата инжинирингу, ex-Amazon и Microsoft , а также автором DataLearn и Surfalytics.
Начнем эфир завтра, 31 октября в 21:00 по московскому времени на моем канале. Что обсудим:
- опыт в FAANG и как там оказаться
- ужасы текущего рынка и какие навыки в ходу
- поговорим о забуграх и что делать, чтобы преуспеть
- свои проекты VS найм и сподвигли ли свои проекты по-новому взглянуть на рынок кандидатов
- чему учить и чему учиться 📚
Ваши вопросы в комментариях категорически приветствуются !
До встречи👋
Димой Аношиным - экспертом по дата инжинирингу, ex-Amazon и Microsoft , а также автором DataLearn и Surfalytics.
Начнем эфир завтра, 31 октября в 21:00 по московскому времени на моем канале. Что обсудим:
- опыт в FAANG и как там оказаться
- ужасы текущего рынка и какие навыки в ходу
- поговорим о забуграх и что делать, чтобы преуспеть
- свои проекты VS найм и сподвигли ли свои проекты по-новому взглянуть на рынок кандидатов
- чему учить и чему учиться 📚
Ваши вопросы в комментариях категорически приветствуются !
До встречи
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Инжиниринг Данных
Делюсь новостями из мира аналитики и карьерными советами.
15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG
🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com
№5017813306
Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG
🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com
№5017813306
Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
❤🔥14🌚2👨💻1
Статистику AppMetrica теперь можно получить за пару кликов
Партнеры РСЯ и AdFox могут получить доступ к расширенной аналитике всего в несколько действий, так как процесс теперь автоматизирован и не нужно тратить время на написание кода. Чтобы воспользоваться этой возможностью, выполните следующие шаги:
1. Зарегистрируйтесь в AppMetrica под своим логином в РСЯ или Adfox.
2. Заполните профиль и свяжите с AppMetrica приложения, которые монетизируются через РСЯ.
3. Подтвердите свое согласие на передачу данных.
Таким образом клиенты РСЯ и AdFox смогут получить расширенные данные сервиса
Если вы уже работали с AppMetrica, то вас достаточно добавить в интерфейсе сервиса связь с приложение Yandex Mobile Ads в «Синхронизации Ads SDK».
Партнеры РСЯ и AdFox могут получить доступ к расширенной аналитике всего в несколько действий, так как процесс теперь автоматизирован и не нужно тратить время на написание кода. Чтобы воспользоваться этой возможностью, выполните следующие шаги:
1. Зарегистрируйтесь в AppMetrica под своим логином в РСЯ или Adfox.
2. Заполните профиль и свяжите с AppMetrica приложения, которые монетизируются через РСЯ.
3. Подтвердите свое согласие на передачу данных.
Таким образом клиенты РСЯ и AdFox смогут получить расширенные данные сервиса
Если вы уже работали с AppMetrica, то вас достаточно добавить в интерфейсе сервиса связь с приложение Yandex Mobile Ads в «Синхронизации Ads SDK».
m.seonews.ru
AppMetrica упростила доступ к мобильной аналитике для партнеров РСЯ и Adfox
Основные данные будут собираться автоматически
❤🔥6 3
Очень классный мини сериал про качество продукта
What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?
Про качество вам расскажут топовые CEO, Founders и Product Managers.
What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?
Про качество вам расскажут топовые CEO, Founders и Product Managers.
linear.app
What is quality? And how do things of quality get built? A limited series. Now streaming.
❤🔥18🍾5🫡2
Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.
99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.
Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.
Данный tip подходят для разработчиков и инженеров;)
99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.
Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.
Данный tip подходят для разработчиков и инженеров;)
💯91❤🔥9⚡1
Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).
Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.
Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.
🐳29🫡11🌚10❤🔥4🙈4🌭3 2🍾1🗿1
Media is too big
VIEW IN TELEGRAM
Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.
💯20❤🔥11⚡8🐳1
Media is too big
VIEW IN TELEGRAM
Самое время вмешиваться в американские выборы хайповать и строить интерактивные визуализации!
Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата!😎
Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.
Перевод:
A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.
Вот примеры, как A/A-тесты могут быть полезны:
1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.
2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.
3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.
Источник: https://experimentguide.com/
Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅
Перевод:
A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.
Вот примеры, как A/A-тесты могут быть полезны:
1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.
2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.
3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.
Источник: https://experimentguide.com/
Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
😈22⚡14💯8
Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸
Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.
Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥79🐳6⚡4
Какой подход в A/B тестах вы используете? (Вопрос из зала👉 )
Anonymous Poll
19%
Фриквентистский подход
18%
Баесовский подход
27%
Я не знаю что такое А/B тесты
35%
Мы не используем А/B тесты
Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.
Можно даже в браузере запустить: https://shell.duckdb.org/
Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.
Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”
В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.
Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.
В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другиестучат молотком работают с Databricks, Snowflake, BigQuery и тп.
Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?
Можно даже в браузере запустить: https://shell.duckdb.org/
Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.
Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”
В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.
Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.
В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие
Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?
MotherDuck
DuckDB Tutorial For Beginners - MotherDuck Blog
Get up to speed quickly with DuckDB, including installation, VSCode workflow integration and your first SQL analytics project.
⚡22❤🔥6🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо, что отдали голос за правильного кандидата🍾 😝
PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷 )
Update: не прошло и несколько часов как вызвали на ковер🤪
PPS Еще оказывается Симпсоны были не правы первый раз😂
PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет
Update: не прошло и несколько часов как вызвали на ковер🤪
PPS Еще оказывается Симпсоны были не правы первый раз😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾77🫡48🗿16 13😭7🙈6🍌3❤🔥2🌚2👨💻2🤷♂1
Media is too big
VIEW IN TELEGRAM
Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.
💯43❤🔥32👾4🙈2⚡1
Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.
Появилась новая книга Apache Airflow Best Practices от Packt Publishing.
With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering
This book covers the following exciting features:
- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow
Книга про 2ю версию, хотя уже скоро будет версия 3.0.
Есть книга Data Pipelines with Apache Airflow
Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.
Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.
Расскажите, кто что использует?
Появилась новая книга Apache Airflow Best Practices от Packt Publishing.
With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering
This book covers the following exciting features:
- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow
Книга про 2ю версию, хотя уже скоро будет версия 3.0.
Есть книга Data Pipelines with Apache Airflow
Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.
Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.
Расскажите, кто что использует?
Packt
Apache Airflow Best Practices | Data | Paperback
A practical guide to orchestrating data workflow with Apache Airflow. Top rated Data products.
🦄34❤🔥18🐳3💯1
Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.
Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.
Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.
Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.
Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.
В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour
Сейчас у них классные результаты:
During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.
What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.
Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)
Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.
Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.
Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.
Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.
В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour
Сейчас у них классные результаты:
During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.
What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.
Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)
Amazon
Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2 | Amazon Web Services
Large-scale, distributed compute framework migrations are not for the faint of heart. There are backwards-compatibility constraints to maintain, performance expectations to meet, scalability limits to overcome, and the omnipresent risk of introducing breaking…
❤🔥8🙈1
LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.
Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))
В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.
Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))
В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.
🐳6🫡5🙈4❤🔥1🍌1🗿1
В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.
Вот несколько классных вариантов использования для аналитики и инженерии данных:
- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB
Этот список можно продолжать!
Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb
Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.
Вот несколько классных вариантов использования для аналитики и инженерии данных:
- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в
source модели dbt и уже строить модели внутри базы- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB
Этот список можно продолжать!
Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb
Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.
❤🔥41⚡12🐳1