Очень классный мини сериал про качество продукта
What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?
Про качество вам расскажут топовые CEO, Founders и Product Managers.
What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?
Про качество вам расскажут топовые CEO, Founders и Product Managers.
linear.app
What is quality? And how do things of quality get built? A limited series. Now streaming.
❤🔥18🍾5🫡2
Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.
99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.
Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.
Данный tip подходят для разработчиков и инженеров;)
99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.
Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.
Данный tip подходят для разработчиков и инженеров;)
💯91❤🔥9⚡1
Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).
Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.
Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.
🐳29🫡11🌚10❤🔥4🙈4🌭3 2🍾1🗿1
Media is too big
VIEW IN TELEGRAM
Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.
💯20❤🔥11⚡8🐳1
Media is too big
VIEW IN TELEGRAM
Самое время вмешиваться в американские выборы хайповать и строить интерактивные визуализации!
Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата!😎
Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.
Перевод:
A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.
Вот примеры, как A/A-тесты могут быть полезны:
1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.
2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.
3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.
Источник: https://experimentguide.com/
Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅
Перевод:
A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.
Вот примеры, как A/A-тесты могут быть полезны:
1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.
2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.
3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.
Источник: https://experimentguide.com/
Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
😈22⚡14💯8
Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸
Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.
Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥79🐳6⚡4
Какой подход в A/B тестах вы используете? (Вопрос из зала👉 )
Anonymous Poll
19%
Фриквентистский подход
18%
Баесовский подход
27%
Я не знаю что такое А/B тесты
35%
Мы не используем А/B тесты
Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.
Можно даже в браузере запустить: https://shell.duckdb.org/
Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.
Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”
В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.
Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.
В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другиестучат молотком работают с Databricks, Snowflake, BigQuery и тп.
Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?
Можно даже в браузере запустить: https://shell.duckdb.org/
Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.
Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”
В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.
Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.
В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие
Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?
MotherDuck
DuckDB Tutorial For Beginners - MotherDuck Blog
Get up to speed quickly with DuckDB, including installation, VSCode workflow integration and your first SQL analytics project.
⚡22❤🔥6🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо, что отдали голос за правильного кандидата🍾 😝
PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷 )
Update: не прошло и несколько часов как вызвали на ковер🤪
PPS Еще оказывается Симпсоны были не правы первый раз😂
PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет
Update: не прошло и несколько часов как вызвали на ковер🤪
PPS Еще оказывается Симпсоны были не правы первый раз😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾73🫡48🗿16 13😭7🙈6🍌3❤🔥2🌚2👨💻2🤷♂1
Media is too big
VIEW IN TELEGRAM
Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.
💯43❤🔥32👾4🙈2⚡1
Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.
Появилась новая книга Apache Airflow Best Practices от Packt Publishing.
With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering
This book covers the following exciting features:
- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow
Книга про 2ю версию, хотя уже скоро будет версия 3.0.
Есть книга Data Pipelines with Apache Airflow
Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.
Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.
Расскажите, кто что использует?
Появилась новая книга Apache Airflow Best Practices от Packt Publishing.
With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering
This book covers the following exciting features:
- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow
Книга про 2ю версию, хотя уже скоро будет версия 3.0.
Есть книга Data Pipelines with Apache Airflow
Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.
Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.
Расскажите, кто что использует?
Packt
Apache Airflow Best Practices | Data | Paperback
A practical guide to orchestrating data workflow with Apache Airflow. Top rated Data products.
🦄34❤🔥18🐳3💯1
Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.
Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.
Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.
Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.
Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.
В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour
Сейчас у них классные результаты:
During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.
What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.
Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)
Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.
Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.
Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.
Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.
В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour
Сейчас у них классные результаты:
During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.
What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.
Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)
Amazon
Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2 | Amazon Web Services
Large-scale, distributed compute framework migrations are not for the faint of heart. There are backwards-compatibility constraints to maintain, performance expectations to meet, scalability limits to overcome, and the omnipresent risk of introducing breaking…
❤🔥8🙈1
LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.
Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))
В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.
Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))
В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.
🐳6🫡5🙈4❤🔥1🍌1🗿1
В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.
Вот несколько классных вариантов использования для аналитики и инженерии данных:
- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB
Этот список можно продолжать!
Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb
Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.
Вот несколько классных вариантов использования для аналитики и инженерии данных:
- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в
source модели dbt и уже строить модели внутри базы- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB
Этот список можно продолжать!
Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb
Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.
❤🔥41⚡12🐳1
Товарищ решил провести бесплатный bootcamp по DE, обычно он за 1500$ продает, а потом пишет в блоге как млн заработал🦯
💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков👉
💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
6-week Free Data Engineering Boot Camp Launch Video | DataExpert.io
This data engineering boot camp will be amazing!
We'll be publishing a new video almost every day from November 15th, 2024 to December 31st, 2024!
Learn actual cloud stuff directly here: https://www.dataexpert.io/LAUNCH20
Join the Discord community! …
We'll be publishing a new video almost every day from November 15th, 2024 to December 31st, 2024!
Learn actual cloud stuff directly here: https://www.dataexpert.io/LAUNCH20
Join the Discord community! …
❤🔥53⚡12 7
Как подготовиться к публичному выступлению? Даже бывалые спикеры мандражируют перед своей речью, что уж говорить о новичках.
Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:
1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.
И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.
Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:
1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.
И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.
Telegram
#неприлюдях
💬 N выступлений спустя, или почему спикер не смог
На рынке сейчас бесчисленное множество разного рода конференций, круглых столов и экспертных встреч, ну просто на любую профессиональную тему. Ивенты про технологии в России и за рубежом редко проходят без…
На рынке сейчас бесчисленное множество разного рода конференций, круглых столов и экспертных встреч, ну просто на любую профессиональную тему. Ивенты про технологии в России и за рубежом редко проходят без…
❤🔥13⚡5🫡5
Товарищи эксперты, филологи, отличники и отличницы, знатоки русского языка, как вы считаете, как правильно писать дата инженер на дореволюционной орфографии?
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр
(Слово дата оставим как есть, его все равно не было)
Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр
(Слово дата оставим как есть, его все равно не было)
Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский
🌚23🙈20 6❤🔥2
Добавил видео о NoSQL базах данных в контексте аналитики, а именно об их использовании в качестве ИСТОЧНИКА данных для аналитических решений. В качестве примера выбрал документ-ориентированную базу данных MongoDB.
После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:
- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.
В завершение рассмотрел основные способы извлечения данных из MongoDB:
- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.
Не затронул только стриминг данных с помощью Kafka Connect или Debezium.
Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH
00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow
Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md
После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:
- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.
В завершение рассмотрел основные способы извлечения данных из MongoDB:
- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.
Не затронул только стриминг данных с помощью Kafka Connect или Debezium.
Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH
00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow
Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md
YouTube
NoSQL Databases for Data Analyst and Data Engineer | Module 2.6 | Surfalytics
In this video, we'll cover the topics related to NoSQL databases and their role in the Data Analytics stack. We’ll walk through the essentials of MongoDB, one of the most popular document databases in full-stack development. From understanding the differences…
❤🔥62⚡6