Очень классный пост про было-стало. В данном случае оптимизация костов Snowflake в облаке. Очевидный факт, Snowflake - Data Warehouse as Services (SaaS - Software as a service is a software distribution model in which a cloud provider hosts applications and makes them available to end users over the internet.), облака у нас эластичные (The purpose of Elasticity is to match the resources allocated with actual amount of resources needed at any given point in time.)
Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.
Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)
Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.
Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)
Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
Посмотрел видео про Airbyte, где берут интервью у фаундеров в марте 2021. Они как раз получили инвестиции - 26 млн$. Airbyte - это сейчас open source набор коннекторов для вашего ETL/ELT инструмента. Они сказали несколько интересных вещей:
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе
Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.
Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud
И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе
Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.
Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud
И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
YouTube
Open Source Airbyte Can Disrupt Fivetran & Stitch Data
Airbyte (https://airbyte.io/) is a promising, cloud based open-source data integration alternative to sync data from any applications, APIs, and databases to data warehouses, data lakes, and other destinations. Airbyte was co-founded by Michel Tricot (former…
Умение анализировать данные полезно всем
Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.
Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...
Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.
Представители бизнеса поделятся реальными кейсами трансформации бизнеса:
* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций
Участие бесплатное, регистрация по ссылке https://day.loginom.ru/
PS Пост поддержал приют для собак Зоорассвет в Москве.
Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.
Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...
Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.
Представители бизнеса поделятся реальными кейсами трансформации бизнеса:
* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций
Участие бесплатное, регистрация по ссылке https://day.loginom.ru/
PS Пост поддержал приют для собак Зоорассвет в Москве.
У нас ещё один замечательный и полезный перевод статьи - Будущее BI за открытым ПО, та самая которую написал создатель Airflow и Superset.
Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.
Поддержите лайком статью!
Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.
Поддержите лайком статью!
Хабр
Будущее BI за открытым ПО
В этом посте представлен перевод статьи на Medium от Maxime Beauchemin . Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала ...
Прикольный пост про карьеру Бизнес Аналитика. Обычно все про технические роли и прикладные задачки, а тут вот про то как стать БА - So You Want To Be A… Business Analyst https://medium.com/ft-product-technology/so-you-want-to-be-a-business-analyst-fc28596411f5
Я недавно шарил пост про канал - Кибер Самурай или, что-то типа того, мы договорились сделать посты по обмену. Это оказался какой-то скам🙅♂️, по ощущуниям как гопники развели на телефон у метро🤣
Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)
Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Хабр
Apache Airflow и будущее инжиниринга данных: вопрос и ответы
Автор оригинала: Maxime Beauchemin В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston . Перевод подготовлен при поддержке сообщества аналитического курса...
Прособеседуйте команду рекламных продуктов Яндекса
13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.
Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:
- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым
Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.
- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track
PS пост поддержал приют для собак Зоорассвет в Москве
13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.
Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:
- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым
Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.
- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track
PS пост поддержал приют для собак Зоорассвет в Москве
Adtech: Прособеседуйте команду рекламных технологий Яндекса
Приходите на наше онлайн-мероприятие — честный разговор о том, как мы делаем рекламные продукты сегодня.
Кроме выступлений спикеров, вас ждут «обратные собеседования» — возможность задать любые вопросы о работе у нас руководителям рекламных продуктов Яндекса…
Кроме выступлений спикеров, вас ждут «обратные собеседования» — возможность задать любые вопросы о работе у нас руководителям рекламных продуктов Яндекса…
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark.
Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video
Все бесплатно и от лучших в индустрии.
Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video
Все бесплатно и от лучших в индустрии.
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜
Хочу показать пример выполнения задания и фидбек от Романа.
1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.
2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard
3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.
Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.
PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
Хочу показать пример выполнения задания и фидбек от Романа.
1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.
2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard
3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.
Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.
PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
Telegram
Reveal the Data
Канал Ромы Бунина про визуализацию данных, дашборды и развитие BI-систем.
Подробнее про канал, рубрики, правила и контакты — https://t.me/revealthedata/386
Сайт и блог — https://revealthedata.com/
Подробнее про канал, рубрики, правила и контакты — https://t.me/revealthedata/386
Сайт и блог — https://revealthedata.com/
AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe
Medium
Industrializing an ML platform with Amazon SageMaker Studio
Steps and considerations when rolling out Studio in an enterprise