Всякое интересное чтение про данные, технологии и не только:
- Meltano Cloud ETL/ELT продукт от одноимённого стартапа вышел в бета режиме. На мой взгляд Meltano один из наиболее интересных ELT продуктов последних лет и точно стоит к нему присмотреться, как минимум к открытой опенсорсной версии, но и от облака может быть практическая польза
- Castor теперь CastorDoc - Castor это такой стартап для каталогизации данных, они поменяли приоритет и стали CastorDoc, стартапом по документированию данных. Ценник у них резко взлетел, минимальная стоимость продукта в $1200 в год, всё остальное по договорённости. Ниша интересная и перспективная
- Paragraphica голландский артист/инженер/дизайнер Bjørn Karmann сделал фотоаппарат которые "делает снимки" так похожие на реальность. Данных там нет, но есть про ИИ и сама концепция. Современное искусство в чистой, незамутнённой форме
- Instacard pipelines про модуляризованные ковейеры данных внутри Instacart, с использованием Spark и Lakehouse архитектуру. Полезно как практический пример живой системы.
- 144TB Nvidia GPU - Nvidia пока однозначно лидирует в гонке ИИ, новый их продукт специально для Generative AI.
- В Японии копирайт не распространяется на обучение ИИ - отличная новость для ИИ, печальная для художников, писателей и тд. ИИ лоббисты (биг тех) всё сильнее, а традиционные копирайтовладельцы не могут им противостоять.
#ai #data #datatools #datacatalogs #etl
- Meltano Cloud ETL/ELT продукт от одноимённого стартапа вышел в бета режиме. На мой взгляд Meltano один из наиболее интересных ELT продуктов последних лет и точно стоит к нему присмотреться, как минимум к открытой опенсорсной версии, но и от облака может быть практическая польза
- Castor теперь CastorDoc - Castor это такой стартап для каталогизации данных, они поменяли приоритет и стали CastorDoc, стартапом по документированию данных. Ценник у них резко взлетел, минимальная стоимость продукта в $1200 в год, всё остальное по договорённости. Ниша интересная и перспективная
- Paragraphica голландский артист/инженер/дизайнер Bjørn Karmann сделал фотоаппарат которые "делает снимки" так похожие на реальность. Данных там нет, но есть про ИИ и сама концепция. Современное искусство в чистой, незамутнённой форме
- Instacard pipelines про модуляризованные ковейеры данных внутри Instacart, с использованием Spark и Lakehouse архитектуру. Полезно как практический пример живой системы.
- 144TB Nvidia GPU - Nvidia пока однозначно лидирует в гонке ИИ, новый их продукт специально для Generative AI.
- В Японии копирайт не распространяется на обучение ИИ - отличная новость для ИИ, печальная для художников, писателей и тд. ИИ лоббисты (биг тех) всё сильнее, а традиционные копирайтовладельцы не могут им противостоять.
#ai #data #datatools #datacatalogs #etl
arch.dev
Arch: the bridge between your customers' data & your code
Arch is the bridge between your customers' data & your code. Stop wasting time on your own OAuth flows, API integrations, and embeddings pipelines. Instantly access all your customers’ data sources; raw, mapped, or as vector embeddings
Свежий инструмент Amphi для визуальных ETL процессов, с low-code проектированием труб данных (data pipelines) через интерфейс в Jupyter lab
Из плюсов:
- low code
- не cloud-first
- базовый набор для обработки структурированных и неструктурированных данных
- всё можно делать в UI прямо в Jupyter Lab
- открытый код
Из минусов:
- low-code (для кого-то минус)
- не cloud-first (для кого-то минус)
- мало разнообразия в источниках получения данных
- лицензия Elastic, недоопенсорс
Мне чем-то напомнило Apache Nifi, но только отчасти.
Интеграция в Jupyter Lab - хорошо,но пока что и в целом надо приглядется. Продукт явно сделан пока скорее для инвесторов чем для пользователей, но без пользователей и инвестиций не будет.
В целом из разработки дата инструментов мне нравятся не только продукты, но и команды Clickhouse и Duckdb.
Хочется дождаться ETL сделанное по аналогии с Duckdb. Удобным ядром и большим числом хорошо написанных расширений. Какое-то время назад мне казалось что Meltano на эту роль подходит, но с тех пор как они отдали свои публичные ресурсы довольно хреновым маркетологам читать их стало тяжело. Развитие продукта сложно оценивать.
#etl #opensource #datatools
Из плюсов:
- low code
- не cloud-first
- базовый набор для обработки структурированных и неструктурированных данных
- всё можно делать в UI прямо в Jupyter Lab
- открытый код
Из минусов:
- low-code (для кого-то минус)
- не cloud-first (для кого-то минус)
- мало разнообразия в источниках получения данных
- лицензия Elastic, недоопенсорс
Мне чем-то напомнило Apache Nifi, но только отчасти.
Интеграция в Jupyter Lab - хорошо,но пока что и в целом надо приглядется. Продукт явно сделан пока скорее для инвесторов чем для пользователей, но без пользователей и инвестиций не будет.
В целом из разработки дата инструментов мне нравятся не только продукты, но и команды Clickhouse и Duckdb.
Хочется дождаться ETL сделанное по аналогии с Duckdb. Удобным ядром и большим числом хорошо написанных расширений. Какое-то время назад мне казалось что Meltano на эту роль подходит, но с тех пор как они отдали свои публичные ресурсы довольно хреновым маркетологам читать их стало тяжело. Развитие продукта сложно оценивать.
#etl #opensource #datatools