Ещё один симпатичный бенчмарк сравнений обработки данных на Python с использованием чистого Python и разных библиотек.
Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.
Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.
Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый.
У меня вот есть штук пять внутренних и open source инструментов про которые я понимаю что если их на duckdb (или polars) смигрировать, то они станут удобнее и практичными многократно.
#opensource #datatools #data #duckdb #benchmarks
Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.
Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.
Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый.
У меня вот есть штук пять внутренних и open source инструментов про которые я понимаю что если их на duckdb (или polars) смигрировать, то они станут удобнее и практичными многократно.
#opensource #datatools #data #duckdb #benchmarks
Симпатичные цифры и графики развития производительности DuckDB со временем и версиями продукта [1]
Собственно они одни из главных причин почему я этот движок так расхваливаю, он хорошо годится для замены инструментов для типовых задач по обработке данных и даёт очень высокую скорость запросов и обработки данных даже при отсутствии индексов на колонках.
Очень высокая планка скорости обработки данных причём не только при локальной обработке, но и в серверной среде и с параллелизацией в облаке.
Особенно для задач дата инжиниринга на базе открытого кода.
Ссылки:
[1] https://duckdb.org/2024/06/26/benchmarks-over-time
#opensource #duckdb #dataengineering
Собственно они одни из главных причин почему я этот движок так расхваливаю, он хорошо годится для замены инструментов для типовых задач по обработке данных и даёт очень высокую скорость запросов и обработки данных даже при отсутствии индексов на колонках.
Очень высокая планка скорости обработки данных причём не только при локальной обработке, но и в серверной среде и с параллелизацией в облаке.
Особенно для задач дата инжиниринга на базе открытого кода.
Ссылки:
[1] https://duckdb.org/2024/06/26/benchmarks-over-time
#opensource #duckdb #dataengineering