Инжиниринг Данных

Весь LinkedIn пестрит постами про Apache Iceberg. Посты писать уже не достаточно, нужно снимать видео, как вот на S3 создали Iceberg таблицу, запустили Spark и написали запрос.

Все твердят о том, как Apache Iceberg одержал победу над Delta, Hudi и стал главным форматом таблиц. Кстати, на последних собеседованиях уже начали спрашивать про Iceberg и DuckDB.

Не важно, какая у вас роль, если вы работаете с данными, вы должны знать про Apache Iceberg и понимать суть и сценарии использования.

Apache Iceberg - это формат таблиц (не путать с типом файла!). Когда мы сохраняем наши данные в storage layer, например в формате Parquet, мы добавляем метаданные:
- Metadata file - содержит информацию об общей структуре таблицы, таких как схема, версии и снэпшоты.
- Manifest list - список всех файлов-манифестов, связанных с конкретным снэпшотом таблицы.
- Manifest file - указывает на конкретные файлы данных, описывая их диапазоны и разделы для эффективной фильтрации.

Полезные ресурсы:
An introduction to Apache Iceberg by Dremio.
Iceberg, Spark and Dremio - A Hands on Experience.
Data Lakehouse Basics by Dremio.
Apache Iceberg Quick start with Docker Compose.
Apache Iceberg Fundamentals: Course.
Бесплатная книга Apache Iceberg: The Definitive Guide PDF

От наших облаков из комментов:
В Yandex Cloud возможны следующие способы работы с delta-форматами файлов:
1) коннекторы iceberg и delta lake в сервисе Managed Trino, который будет доступен пользователям в рамках technical preview уже в декабре 2024 года

2) delta lake в сервисе Yandex Data Processing
https://yandex.cloud/ru/docs/data-proc/concepts/deltalake
https://github.com/yandex-cloud/yc-delta

3) в Cloudberry, на основе которого будут реализованы новые версии Greenplum'а в YC, есть поддержка iceberg в коммерческой версии, однако есть планы по релизу в open-source:
https://github.com/apache/cloudberry/discussions/667#discussioncomment-10944084
- в случае появления кода в open-source репозитории, поддержка iceberg для Cloudberry будет доступна и в Yandex Cloud

В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Хотя вы можете создать свой Lakehouse на Kubernetes + Minio + Iceberg + Trino/Spark.

Еще нашел:
2 отечественных продукта с managed Trino, возможно они поддерживают iceberg.
СedrusData - распределенная SQL-система для создания аналитических платформ уровня предприятия на основе open-source проекта Trino. Работает с любыми источниками и объемами данных, в облаке и on-premise.
Разрабатывается компанией Querify Labs.

Обзор Managed Trino от Cloud Ru.

PS: если хотите добавить ссылку в комментарии, используйте её как текст, а не как гиперссылку, или через markdown.


www.dataengineer.ru

BigDATAwire

How Apache Iceberg Won the Open Table Wars - BigDATAwire

Apache Iceberg has recently emerged as the de facto open-table standard for large-scale datasets, with a thriving community and support from many of the leading data infrastructure vendors. But why […]

❤‍🔥48⚡8💯3🫡2

12K viewsDmitry, 17:04