Инжиниринг Данных

Очень интересная точка зрения основателя Tobiko (SQLMesh) — главного конкурента dbt.

Мы тут были в восторге от новой фичи dbt: он стал значительно быстрее, потому что его переписали на Rust. Логично, что переписывание старого движка дало мощный прирост в скорости, и выбор Rust очевидно удачный.

Но мы так привыкли к "бесплатному" и хорошо работающему dbt Core, что воспринимаем это как должное. А вот из-за такой "данности" компания dbt Labs теряет деньги. А им ведь ещё нужно отчитываться перед инвесторами.

Вот с Airflow и Airbyte всегда было проще, косяк на косяке=) (вот только не говорите мне, что "готовить не умею", я бы тогда просто-бы макросы VBA "приготовил бы"🧐)

Вот и сам текст:

dbt Fusion — это полная переработка dbt Core на языке Rust. В отличие от dbt Core, который является полностью бесплатным и с открытым исходным кодом под лицензией Apache 2.0, dbt Fusion — это не open-source проект, так как распространяется по более ограничительной лицензии Elastic 2.0.

Хотя Fusion и можно использовать бесплатно, его лицензия запрещает использование в хостинговых или управляемых решениях третьими сторонами. Возможно, это кажется незначительным, но у этого ограничения есть серьёзные последствия.

Открытый исходный код хорош тем, что он стимулирует как отдельных разработчиков, так и компании инвестировать в развитие продукта без риска. Компания может полностью полагаться на open-source решение, потому что в любом случае его можно форкнуть и использовать в своих целях, независимо от решений основного разработчика. Лицензия с ограничениями, такая как Elastic, наоборот, демотивирует компании вкладываться в развитие продукта.

Не поймите неправильно: в решении dbt Labs нет ничего неэтичного. Более того, с финансовой точки зрения для них это может быть наиболее разумным шагом. Но важно понять, как мы к этому пришли и что это может значить для будущего dbt Core.

Мне кажется, стратегия dbt заключается в том, чтобы перевести dbt Core в режим поддержки (maintenance mode), сосредоточившись на Fusion и других коммерческих продуктах. Формулировки в анонсе были выбраны очень осторожно и расплывчато. В частности, говоря о поддержке dbt Core, они упомянули только исправление багов, обновления безопасности и поддержание совместимости.

Согласно их роадмапу, они отделили dbt-язык от runtime-движка. Также отдельно подчёркивается, что Fusion и Core со временем неизбежно разойдутся, поскольку Fusion обладает возможностями, которые невозможно добавить в Core. По моему мнению, dbt Labs используют эту возможность, чтобы сосредоточиться на более ограниченном и прибыльном софте, постепенно сворачивая то, что сделало их знаменитыми, но одновременно мешает их финансовому росту.

В конечном итоге ресурсы ограничены, и компании вынуждены расставлять приоритеты исходя из интересов бизнеса.

Учитывая фундаментальное значение dbt Core для современной аналитической инфраструктуры, аналитики и инженеры данных заслуживают свободную, открытую и постоянно развивающуюся платформу для трансформации данных. В противном случае ваша карьера окажется слишком зависимой от решений одной-единственной компании. Чтобы обеспечить непрерывные инновации в области data-трансформаций, возможно, пришло время начать дискуссию об открытом стандарте описания трансформаций данных.

Посмотрим как долго SQLMesh будет открытый (то есть как долго будет экономика сходится)🔪

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡19🐳6🌚3❤‍🔥1🤷‍♂1

7.94K viewsDmitry, edited 20:29