Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.
Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.
#opensource #dataengineering #ai #datatools
Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.
#opensource #dataengineering #ai #datatools
✍6👍2⚡1💯1
В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.
Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.
Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.
#compression #data #datatools #dataengineering
Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.
Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.
#compression #data #datatools #dataengineering
Engineering at Meta
Introducing OpenZL: An Open Source Format-Aware Compression Framework
OpenZL is a new open source data compression framework that offers lossless compression for structured data. OpenZL is designed to offer the performance of a format-specific compressor with the eas…
1👍8❤2