Ivan Begtin
8.02K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.

Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].

Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.

Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats

#data #datatools #analytics
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.

Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.

Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/

#ai #analytics #llmops
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools