Полезные ссылки про данные, технологии и не только:
- Cloudflare R2 data catalog [1] свежий каталог данных на базе Apache Iceberg от Cloudflare поверх их сервиса хранения файлов R2. Хорошая новость, потому что R2 дешевле Amazon S3 при сравнимом качестве сервиса. Жду когда Backblaze запустит аналогичный сервис для их Backblaze B2
- xorq [2] читается как zork, фреймворк для обработки данных с помощью разных движков. Там и DuckDB, и Pandas, и DataFusion и др. Удобство в универсальности, но продукт пока малоизвестный, надо смотреть
- Iceberg?? Give it a REST! [3] автор рассуждает о том что без REST каталога Iceberg малополезен и, в принципе, про развитие этой экосистемы. Многие уже рассматривают стремительный взлёт Iceberg как хайп, что не отменяет того что технология весьма любопытная.
- BI is dead. Change my mind. [4] текст от Engeneering director в Clickhouse о том как меняется (может поменяться) BI в ближайшее время. TLDR: LLM + MCP + LibreChat. Чтение полезное для всех кто занимается внутренней аналитикой и использует Clickhouse
- Roadmap: Data 3.0 in the Lakehouse Era [5] изменения в экосистеме управления данными с точки зрения венчурного капитала. Простым языком для тех кто инвестирует средства в то какие новые технологии в дата инженерии появились и развиваются.
Ссылки:
[1] https://blog.cloudflare.com/r2-data-catalog-public-beta/
[2] https://github.com/xorq-labs/xorq
[3] https://roundup.getdbt.com/p/iceberg-give-it-a-rest
[4] https://www.linkedin.com/pulse/bi-dead-change-my-mind-dmitry-pavlov-2otae/
[5] https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era
#opensource #dataanalytics #datatools #dataengineering
- Cloudflare R2 data catalog [1] свежий каталог данных на базе Apache Iceberg от Cloudflare поверх их сервиса хранения файлов R2. Хорошая новость, потому что R2 дешевле Amazon S3 при сравнимом качестве сервиса. Жду когда Backblaze запустит аналогичный сервис для их Backblaze B2
- xorq [2] читается как zork, фреймворк для обработки данных с помощью разных движков. Там и DuckDB, и Pandas, и DataFusion и др. Удобство в универсальности, но продукт пока малоизвестный, надо смотреть
- Iceberg?? Give it a REST! [3] автор рассуждает о том что без REST каталога Iceberg малополезен и, в принципе, про развитие этой экосистемы. Многие уже рассматривают стремительный взлёт Iceberg как хайп, что не отменяет того что технология весьма любопытная.
- BI is dead. Change my mind. [4] текст от Engeneering director в Clickhouse о том как меняется (может поменяться) BI в ближайшее время. TLDR: LLM + MCP + LibreChat. Чтение полезное для всех кто занимается внутренней аналитикой и использует Clickhouse
- Roadmap: Data 3.0 in the Lakehouse Era [5] изменения в экосистеме управления данными с точки зрения венчурного капитала. Простым языком для тех кто инвестирует средства в то какие новые технологии в дата инженерии появились и развиваются.
Ссылки:
[1] https://blog.cloudflare.com/r2-data-catalog-public-beta/
[2] https://github.com/xorq-labs/xorq
[3] https://roundup.getdbt.com/p/iceberg-give-it-a-rest
[4] https://www.linkedin.com/pulse/bi-dead-change-my-mind-dmitry-pavlov-2otae/
[5] https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era
#opensource #dataanalytics #datatools #dataengineering
The Cloudflare Blog
R2 Data Catalog: Managed Apache Iceberg tables with zero egress fees
R2 Data Catalog is now in public beta: a managed Apache Iceberg data catalog built directly into your R2 bucket.
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах.
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
GitHub
GitHub - LearningCircuit/local-deep-research: Local Deep Research is an AI-powered assistant that transforms complex questions…
Local Deep Research is an AI-powered assistant that transforms complex questions into comprehensive, cited reports by conducting iterative analysis using any LLM across diverse knowledge sources in...