Сейчас делаю следующий урок по ETL, где нашел много теории по ETL. И эта картинка пришлась кстати. Сейчас столько модных инструментов и слов в индустрии, где в каждой компании есть уже свой data engineer, и все дружно извлекают пользу из данных и строят датапроводы. При этому чуть ли не каждый, включая меня, изобретают “колесо”, как бы сделать data pipelines лучше, быстрей и качественней. Хотя уже умные люди лет 10-20 назад все придумали про ETL дизайн и необходимые требования к ETL системе.
Forwarded from LEFT JOIN
Прошел этот курс, делюсь своими впечатлениями.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Курс классный, в нем много практики. Я использовал Google BigQuery и публичные датасеты от dbt для решения описанных примеров, а в обучающих материалах все построено на Snowflake.
В целом, узнал много нового и полезного о dbt, кратко summary:
* Во введении ребята объясняют роль Analytics Engineer, о котором так много разговоров и ссылаются на их пост блога
* Дается исчерпывающая информация о том, как подключить dbt к вашему хранилищу и .git
* В dbt довольно тривиальными запросами реализовано тестирование данных на предмет уникальности, соответстия значениям (это реально базовые SQL-запросы, которые проверяют наличие / отсутствия поля или значений)
И тут интересно следующее: когда пишешь самостоятельно похожие запросы иногда думаешь, что во всем остальном мире так никто не делает, ну, к примеру:
SELECT sum(amount) FROM ... HAVING sum(amount)>0
А оказывается еще как делают, вот даже публично внутри dbt все эти тесты так и реализованы.
И, кстати, крайне удобно, что SQL-код каждого теста можно изучить (скомпилировать)
* Круто и удобно формируется документация и DAG (directed acyclic graph), который показывает все шаги преобразований модели
* Поскольку dbt построен на Liquid и использовании Jinja (движок шаблонов в python), то можно делать всякие невероятные вещи вроде написания внутреннего макроса (читай, условный операторы, циклы или создание функций) и применять этот макрос для автоматизации однотипных частей запроса.
Это прям вау 🙂
* Многие вещи уже придуманы и разработаны коммьюнити, поэтому существует dbt hub, через который можно подключить интересующие пакеты и не изобретать велосипед.
* Отдельного упоминания достойны алгоритмы формирования инкрементального наполнения таблиц и создания снэпшотов. Для одного из проектов абсолютно такой же алгоритм по созданию снэпшотов с date_form / date_to мне доводилось проектировать самостоятельно.
Было приятно увидеть, что у ребят из dbt это работает абсолютно аналогичным образом.
* Разумеется, используя Jinja и dbt, можно автоматизировать построение аналитических запросов, это так и называется Analyses. Скомпилированный код запроса, можно имплементировать в любимую BI-систему и наслаждаться результатами.
Общие впечатления очень положительные: dbt ждет большое будущее и развитие, т.к. коммьюнити растет вместе с возможностями и ресурсами компании.
Ждем коннекторов к другим СУБД помимо PostgreSQL, BigQuery, Snowflake, Redshift.
Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом создания data pipelines или data integration. Так же мы узнаем основные элементы open-source решения - Pentaho DI и потренируемся выполнять упражнения 2го модуля с помощью UI ETL инструмента.
В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их
https://youtu.be/-oCBttnefMQ
В этом видео вы узнаете:
📌 История Pentaho DI
📌 Основные компоненты Pentaho DI
📌 Требования к ETL приложению
📌 Data Profiling
📌 Change Data Capture
📌 Design for Failure
📌 Logging and Auditing ETL решения
📌 Testing и Debugging ETL решения
📌 На практике увидите, кам можно загружать данные в базу данных и трансформировать их
https://youtu.be/-oCBttnefMQ
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 4-4 ETL Компоненты
Мы уже должны понимать основные компоненты любого аналитического решения для больших и маленьких данных - это BI/DW/ETL. Понимать концептуально. В этом уроки мы поговорим про ETL решения и про требования и рекомендации, которые неплохо продумать перед началом…
👍1
Еще одна крутая новость. Юрий Грачев, COO в компании CreditKasa, сделал доброе дело, перевел 3000 гривен в благотворительную организацию "В ДОБРІ РУКИ”. В следующем посте я опубликую его объявление про отрытую вакансию. Они будут строить крутое аналитическое решение. Обязательно ознакомьтесь и расшарьте по возможности. 🙏
#vacancy #вакансия #DBA #Kyiv #Киев #fulltime #dataengineer #analyticsengineering
Всем привет!
Мы – инновационная финансовая компания, и входим в ТОП 20 лидеров в нашем сегменте!
Нам нужен прогрессивный архитектор-координатор-администратор, который усилит нашу команду.
Одно из направлений работы нашего будущего коллеги - миграция данных из Хранилища подрядчика (Postgres SQL) в нашу систему в облаке Amazon.
Перечень необходимых скилов:
· Опыт работы от 5 лет в должности DBA;
· Навык архитектора DWH;
· Технические знания в области проектирования и разработки продуктов в облачных сервисах (Postgres SQL, DWH, Amazon, python, other);
· Опыт создания надежных и масштабируемых решений;
· Аналитические навыки.
Мы предлагаем:
· Гибкий рабочий график;
· Достойный уровень заработной платы;
· Удобная доступность, офис рядом с метро;
· возможность карьерного роста;
· Поддержку и помощь на всех этапах работы;
· Активная офисная жизнь: множество конкурсов, ярких ивентов;
· Возможность стать частью команды в период ее динамичного развития.
И самое важное - вы не будете ограничены в выборе путей и средств реализации!
Если вы готовы стать частью нашей дружной команды и готовы к новым вызовам, свяжитесь с нами, будем рады новым друзьям!
Telegram: @Ismaylovan
Phone: +380(50) 447 27 36
Всем привет!
Мы – инновационная финансовая компания, и входим в ТОП 20 лидеров в нашем сегменте!
Нам нужен прогрессивный архитектор-координатор-администратор, который усилит нашу команду.
Одно из направлений работы нашего будущего коллеги - миграция данных из Хранилища подрядчика (Postgres SQL) в нашу систему в облаке Amazon.
Перечень необходимых скилов:
· Опыт работы от 5 лет в должности DBA;
· Навык архитектора DWH;
· Технические знания в области проектирования и разработки продуктов в облачных сервисах (Postgres SQL, DWH, Amazon, python, other);
· Опыт создания надежных и масштабируемых решений;
· Аналитические навыки.
Мы предлагаем:
· Гибкий рабочий график;
· Достойный уровень заработной платы;
· Удобная доступность, офис рядом с метро;
· возможность карьерного роста;
· Поддержку и помощь на всех этапах работы;
· Активная офисная жизнь: множество конкурсов, ярких ивентов;
· Возможность стать частью команды в период ее динамичного развития.
И самое важное - вы не будете ограничены в выборе путей и средств реализации!
Если вы готовы стать частью нашей дружной команды и готовы к новым вызовам, свяжитесь с нами, будем рады новым друзьям!
Telegram: @Ismaylovan
Phone: +380(50) 447 27 36
Интересное обсуждение современных технологий.
Lakes v. warehouses, analytics v. AI/ML, SQL v. everything else… As the technical capabilities of data lakes and data warehouses converge, are the separate tools and teams that run AI/ML and analytics converging as well?
Lakes v. warehouses, analytics v. AI/ML, SQL v. everything else… As the technical capabilities of data lakes and data warehouses converge, are the separate tools and teams that run AI/ML and analytics converging as well?
Future
The Great Data Debate
The future of data lakes, the new use cases for the modern data stack, and whether decentralization of teams and tools is the future.
3 декабря, СЕО Microsoft (это уже не Билл Гейтс☺️), будет рассказывать про аналитику на Azure.
Мне понравилась реклама Сбера, душевненько). Тем более без ml не обошлись.
vc.ru
«Храните деньги в сберегательной кассе»: «Сбер» снял в рекламе deepfake-копию Жоржа Милославского из «Ивана Васильевича» — Маркетинг…
По сюжету ролика, Милославский оказывается в 2020-м году.
Mac OS всегда была особняком. Все облачные вендор предлагают нам Linux или Windows. И вот, AWS выпустил новый EC2 инстанс с поддержкой MacOs. Это значимое событие для облачных провайдеров.
YouTube
AWS EC2 Mac Instances Launch - macOS in the cloud for the first time, with the benefits of EC2
Amazon EC2 Mac instances are built on Mac mini computers, feature the macOS operating system and are powered by AWS Nitro. EC2 Mac instances enable customers to run on-demand macOS workloads in the cloud for the first time, giving developers an efficient…
А вот другая новость (уже не новая), но тоже интересная. Стриминг крутых игр на мобильные устройства. У гугла есть stadia, ну о них нет студий, которые делают игры. А Xbox может создавать контент (игры), стримить через Azure. Это новый рынок для облачных гигантов и игровой индустрии, так как без поддержки облаков, такой сервис будет очень дорогим, Интересно, отечественный cloud будет строить игровой стриминг на своих мощностях?
Правдивая история. Недавно знакомый рассказывал как его не взяли пожарным по этим же причинам - белый гетеросексуальный мужчина. На них квоты не было…
vc.ru
Nasdaq хочет, чтобы в компаниях в советах директоров была минимум одна женщина и один представитель меньшинств — Офтоп на vc.ru
Фондовая биржа Nasdaq подала в Комиссию по ценным бумагам и биржам предложение по новым правилам листинга, касающееся состава совета директоров компаний и прозрачности в этом вопросе. В правлении должны быть как минимум одна женщина и один представитель …
Еще одна компания по data, получила хорошие инвестиции. Раньше не слышал про них. Сервис занимается мониторингом data pipelines и ML моделей.
“Our users were in a constant battle with ETL (extract transform load) logic,” said Benamram, who spoke to me from New York (the company is based both there and in Tel Aviv, and also has developers and operations in Kiev). “Users didn’t know how to organize their tools and systems to produce reliable data products.”
Databand’s approach is to use big data to better handle big data: it crunches various pieces of information, including pipeline metadata like logs, runtime info and data profiles, along with information from Airflow, Spark, Snowflake and other sources, and puts the resulting data into a single platform, to give engineers a single view of what’s happening and better see where bottlenecks or anomalies are appearing, and why.
“Our users were in a constant battle with ETL (extract transform load) logic,” said Benamram, who spoke to me from New York (the company is based both there and in Tel Aviv, and also has developers and operations in Kiev). “Users didn’t know how to organize their tools and systems to produce reliable data products.”
Databand’s approach is to use big data to better handle big data: it crunches various pieces of information, including pipeline metadata like logs, runtime info and data profiles, along with information from Airflow, Spark, Snowflake and other sources, and puts the resulting data into a single platform, to give engineers a single view of what’s happening and better see where bottlenecks or anomalies are appearing, and why.
TechCrunch
Databand raises $14.5M led by Accel for its data pipeline observability tools
DevOps continues to get a lot of attention as a wave of companies develop more sophisticated tools to help developers manage increasingly complex architectures and workloads. In the latest development, Databand — an AI-based observability platform for data…
Forwarded from Nikolay Golov
Добрый день :) ... Не реклама.
У нас новая статья вышла, про архитектуру хранилища ManyChat на базе Snowflake + Anchor Modeling, возможно читателей канала "Инжиниринг данных" заинтересует.
https://habr.com/ru/company/manychat/blog/530054/
У нас новая статья вышла, про архитектуру хранилища ManyChat на базе Snowflake + Anchor Modeling, возможно читателей канала "Инжиниринг данных" заинтересует.
https://habr.com/ru/company/manychat/blog/530054/
Хабр
Snowflake, Anchor Model, ELT и как с этим жить
Привет! Меня зовут Антон Поляков, и я разрабатываю аналитическое хранилище данных и ELT-процессы в ManyChat. В настоящий момент в мире больших данных существуют...
Отцы основатели хранилищ данных и методов работы с данными уже не молодые. https://liliendahl.com/2020/12/02/the-start-of-the-history-of-data-and-information-quality-management/amp/
Liliendahl on Data Quality
The Start of the History of Data and Information Quality Management
I am sad to hear that Larry English has passed away as I learned from this LinkedIn update by C. Lwanga Yonke. As said in here: “When the story of Information Quality Management is written, the fir…