Ivan Begtin
9.07K subscribers
2.55K photos
5 videos
114 files
5.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools
6👍21💯1
В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering
1👍82