Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.23K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение инструментов работы с данными, я на днях обновил утилиту undatum которую создавал для разных манипуляций с данными в командной строке. Главная была особенность в том что она кроме CSV файлов поддерживает всяческие структурированные не плоские форматы данных вроде JSONL, BSON, Parquet и тд.

А также умеет автодокументировать датасеты.

Собственно свежее изменение в том что теперь автодокументирование расширилось поддержкой любых LLM'ом через Ollama, LM Studio, Perplexity, OpenAI и OpenRouter и в поддержке множества языков, можно получать описание буквально на любом языке поддерживаемом выбранной LLM.

Автодокументирование работает не быстро, но зависит только от скорости работы LLM, а не от размера набора данных. Оно полезно для многих задач, у меня лично много задач с тем чтобы приводить описания наборов данных в порядок и один из способов для этого в использовании вот этого инструмента

У меня в отложенных задачах есть интеграция его с утилитой metacrafter, но это уже как-то позже.

#opensource #datatools #ai
1🔥7
В рубрике как это устроено у них SDMX Metadata AI Assistant (MAIA) специальный инструмент для обогащения статистических метаданных в формате SDMX от Банка международных расчетов.

На вход принимает файлы с метаданными SDMX и DSD, анализирует их и обогащает. На самом деле ничего супер необычного или прорывного, просто небольшой полезный инструмент для экосистемы SDMX. От него было бы больше пользы будь эти инструменты встроены в существующие стат продукты.

Тем не менее полезно для того чтобы понимать как ИИ уже используется в консервативной среде официальной статистики

#statistics #ai
👍2