Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах.
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
Описание очень симпатично и кажется практичным, но лично у меня с первой попытки не завелось, исследования по темам Recent development in CSV files analysis и Recent development in automatic data analysis не принесли никаких результатов.
Наверняка дело в настройках, но, как бы, из коробки не заработало. Тем не менее, несомненно, инструмент интересный.
Впрочем это не единственный инструмент, есть ещё deep-searcher [2] который тоже умеет искать с использованием разных моделей и возвращать результаты локально.
Ссылки:
[1] https://github.com/LearningCircuit/local-deep-research
[2] https://github.com/zilliztech/deep-searcher
#opensource #ai #research #analytics
GitHub
GitHub - LearningCircuit/local-deep-research: Local Deep Research is an AI-powered assistant that transforms complex questions…
Local Deep Research is an AI-powered assistant that transforms complex questions into comprehensive, cited reports by conducting iterative analysis using any LLM across diverse knowledge sources in...
В CKAN появилась поддержка схемы метаданных Croissant [1], переводится как круассан, используемой для публикации наборов данных для машинного обучения. По этой схеме уже публикуются данных в Hugging Face, Kaggle и OpenML, а теперь ещё и в репозиториях на CKAN.
Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.
Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard
#opendata #ckan #opensource #datacatalogs #datasets
Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.
Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard
#opendata #ckan #opensource #datacatalogs #datasets
Полезные ссылки про данные, технологии и не только:
- Data Engineering: Now with 30% More Bullshit [1] автор ругается на термин Modern Data Stack и рассказывает про архитектуры полезное, объясняя разницу между маркетингом и здравым смыслом
- dbt Isn't Declarative — And That's a Problem [2] автор явночлен секты декларативного программирования недолюбливает dbt за недекларативность и объясняет как правильно и почему. Только пока что декларативных аналогов dbt нет как бы кому-то этого не хотелось. Не, ну если появится, я бы посмотрел
- How Agoda Uses GPT to Optimize SQL Stored Procedures in CI/CD [3] автор пишет про то как применил LLM к оптимизации хранимых процедур. Плохо пишет, код нормально не приводит, то какую LLM использовал неясно, но идея разумна и практична. Для тех кто пользуется хранимыми процедурами
- Parquet is a streaming data format [4] о том что Parquet файлы можно использовать для потоковой обработки данных. Неожиданно, немного, но всё так
- Introducing MAI-DS-R1 [5] открытая модель от Microsoft на базе DeepSeek превосходящая оригинальную по множеству параметров и обходящая цензурные ограничения дипсика на тему Китая.
- An Intro to DeepSeek's Distributed File System [6] подробности о том как устроена 3FS открытая файловая система от DeepSeek.
- SpacetimeDB [7] open source СУБД и сервис для баз данных и серверов для разработчиков онлайн игр. Вообще интересная ниша и продукт любопытный. Ни разу не дешёвый как сервис, но как открытый код вполне бесплатен.
- Cloudflare R2 + Apache Iceberg + R2 Data Catalog + Daft [8] автор пишет про Apache Iceberg поверх R2 и работать с данными с помощью Daft. Выглядит всё лучше и лучше, практичнее и практичнее.
Ссылки:
[1] https://luminousmen.com/post/data-engineering-now-with-30-more-bullshit
[2] https://jennykwan.org/posts/dbt-isnt-declarative/
[3] https://medium.com/agoda-engineering/how-agoda-uses-gpt-to-optimize-sql-stored-procedures-in-ci-cd-29caf730c46c
[4] https://www.linkedin.com/posts/danforsberg_parquet-is-a-streaming-data-format-i-activity-7319055651689631744-M64r/
[5] https://techcommunity.microsoft.com/blog/machinelearningblog/introducing-mai-ds-r1/4405076
[6] https://maknee.github.io/blog/2025/3FS-Performance-Journal-1/
[7] https://spacetimedb.com
[8] https://dataengineeringcentral.substack.com/p/cloudflare-r2-apache-iceberg-r2-data
#opensource #dataengineering
- Data Engineering: Now with 30% More Bullshit [1] автор ругается на термин Modern Data Stack и рассказывает про архитектуры полезное, объясняя разницу между маркетингом и здравым смыслом
- dbt Isn't Declarative — And That's a Problem [2] автор явно
- How Agoda Uses GPT to Optimize SQL Stored Procedures in CI/CD [3] автор пишет про то как применил LLM к оптимизации хранимых процедур. Плохо пишет, код нормально не приводит, то какую LLM использовал неясно, но идея разумна и практична. Для тех кто пользуется хранимыми процедурами
- Parquet is a streaming data format [4] о том что Parquet файлы можно использовать для потоковой обработки данных. Неожиданно, немного, но всё так
- Introducing MAI-DS-R1 [5] открытая модель от Microsoft на базе DeepSeek превосходящая оригинальную по множеству параметров и обходящая цензурные ограничения дипсика на тему Китая.
- An Intro to DeepSeek's Distributed File System [6] подробности о том как устроена 3FS открытая файловая система от DeepSeek.
- SpacetimeDB [7] open source СУБД и сервис для баз данных и серверов для разработчиков онлайн игр. Вообще интересная ниша и продукт любопытный. Ни разу не дешёвый как сервис, но как открытый код вполне бесплатен.
- Cloudflare R2 + Apache Iceberg + R2 Data Catalog + Daft [8] автор пишет про Apache Iceberg поверх R2 и работать с данными с помощью Daft. Выглядит всё лучше и лучше, практичнее и практичнее.
Ссылки:
[1] https://luminousmen.com/post/data-engineering-now-with-30-more-bullshit
[2] https://jennykwan.org/posts/dbt-isnt-declarative/
[3] https://medium.com/agoda-engineering/how-agoda-uses-gpt-to-optimize-sql-stored-procedures-in-ci-cd-29caf730c46c
[4] https://www.linkedin.com/posts/danforsberg_parquet-is-a-streaming-data-format-i-activity-7319055651689631744-M64r/
[5] https://techcommunity.microsoft.com/blog/machinelearningblog/introducing-mai-ds-r1/4405076
[6] https://maknee.github.io/blog/2025/3FS-Performance-Journal-1/
[7] https://spacetimedb.com
[8] https://dataengineeringcentral.substack.com/p/cloudflare-r2-apache-iceberg-r2-data
#opensource #dataengineering
Blog | iamluminousmen
Data Engineering: Now with 30% More Bullshit
Tools don't solve problems. People do. No buzzword replaces craftsmanship.
This media is not supported in your browser
VIEW IN TELEGRAM
Внезапно обнаружил прекрасное, чей то эксперимент по 3D рисованию с помощью DuckDB-WASM [1] и созданию клона Doom'а через SQL.
Тот случай когда безумная задача, необычный выбор способа её реализации и неплохие результаты.
Автор выложил код на Github [2], там его немного и всё в виде SQL + JS.
Ссылки:
[1] https://www.hey.earth/posts/duckdb-doom
[2] https://github.com/patricktrainer/duckdb-doom
#opensource #datatools
Тот случай когда безумная задача, необычный выбор способа её реализации и неплохие результаты.
Автор выложил код на Github [2], там его немного и всё в виде SQL + JS.
Ссылки:
[1] https://www.hey.earth/posts/duckdb-doom
[2] https://github.com/patricktrainer/duckdb-doom
#opensource #datatools
Подборка полезных ссылок про данные, технологии и не только:
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.
Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock
#opensource #data #datatools #dataengineering
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.
Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock
#opensource #data #datatools #dataengineering
GitHub
GitHub - hyehudai/wireduck: Duckdb extension to read pcap files
Duckdb extension to read pcap files. Contribute to hyehudai/wireduck development by creating an account on GitHub.
PDF Craft [1] ещё один инструмент с открытым кодом преобразования PDF файлов в разные форматы включая аккуратную разметку и перенос изображений. Может использовать LLM для анализа документа и ускорятся с помощью CUDA.
Русский язык пока не поддерживает [2] потому что языковое распознавание вынесено в отдельную библиотеку OnnxOCR [3] заточенную под английский и китайский языки. Скорее всего другие языки с латинскими буквами тоже будет распознавать, а вот кириллические пока нет.
Интересно ещё что там с распознаванием армянского языка.
Интересная штука даже с текущими ограничениями.
А мне вот нужна, хоть самому пиши, штука которая получив PDF документ извлечёт из него все таблицы, извлечет данные из графиков и запишет всё в приложении к документу. Но таких пока нет и у меня времени не хватит в ближайшие месяцы.
Ссылки:
[1] https://github.com/oomol-lab/pdf-craft
[2] https://github.com/oomol-lab/pdf-craft/issues/145
[3] https://github.com/jingsongliujing/OnnxOCR
#opensource #pdf
Русский язык пока не поддерживает [2] потому что языковое распознавание вынесено в отдельную библиотеку OnnxOCR [3] заточенную под английский и китайский языки. Скорее всего другие языки с латинскими буквами тоже будет распознавать, а вот кириллические пока нет.
Интересно ещё что там с распознаванием армянского языка.
Интересная штука даже с текущими ограничениями.
А мне вот нужна, хоть самому пиши, штука которая получив PDF документ извлечёт из него все таблицы, извлечет данные из графиков и запишет всё в приложении к документу. Но таких пока нет и у меня времени не хватит в ближайшие месяцы.
Ссылки:
[1] https://github.com/oomol-lab/pdf-craft
[2] https://github.com/oomol-lab/pdf-craft/issues/145
[3] https://github.com/jingsongliujing/OnnxOCR
#opensource #pdf
Я вначале думал что это первоапрельская шутка, а оказывается совсем нет, мебель с открытым кодом, Hyperwood [1] и это прям реально открытый код на Github [2] спецификация для обмена данными и описания моделей.
На что только люди не находят время и выглядит весьма и весьма неплохо.
Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood
#opensource #wood
На что только люди не находят время и выглядит весьма и весьма неплохо.
Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood
#opensource #wood
Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.
Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.
Выглядит как нечто неплохо спроектированное и описанное.
Для тех кто любит SQL и YAML - самое оно.
Ссылки:
[1] https://github.com/turbolytics/sql-flow
#opensource #datatools #dataengineering
Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.
Выглядит как нечто неплохо спроектированное и описанное.
Для тех кто любит SQL и YAML - самое оно.
Ссылки:
[1] https://github.com/turbolytics/sql-flow
#opensource #datatools #dataengineering