DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.
За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.
В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.
Ссылки:
[1] https://github.com/iterative/datachain
#opensource #dataengineering
За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.
В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.
Ссылки:
[1] https://github.com/iterative/datachain
#opensource #dataengineering
GitHub
GitHub - datachain-ai/datachain: Analytics, Versioning and ETL for multimodal data: video, audio, PDFs, images
Analytics, Versioning and ETL for multimodal data: video, audio, PDFs, images - datachain-ai/datachain
⚡5❤3
Свежий любопытный редактор кода и данных NAO [1] профинансирован Y Combinator, предлагают аналог VSCode со встроенным AI ассистентом заточенным под данные, помогает строить пайплайны, разбирает SQL запросы, позволяет делать с данными и запросами к ним всякое. Позиционируется как Cursor для данных и заточенность под SQL.
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
👍9❤🔥3