Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я не раз писал о том что документирование датасетов вполне поддается автоматизации и некоторое количество раз экспериментировал с этим. Сейчас я в итоге обновил утилиту undatum к которой добавил команду doc с помощью которой можно сгенерировать описание набора данных в форматах markdown, yaml, json или text и так далее. Из плюсов - сразу готовая документация весьма подробная, из минусов - это документирование только на основе содержания файла без каких-либо дополнительных метаданных поэтому там нет инфы по происхождению (lineage) и метаданных источника.

Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.

#opendata #datasets #data #datadocumentation
👍62🔥21
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.

По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.

Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью

И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.

Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.

Ну и открытый код - это всегда плюс

#coding #ai #aiagents #opensource
👏422👍2
Я, кстати, пропустил эту новость, а тем временем NVIDIA обвинили в получении 500ТБ пиратских книг из Anna's Archive. Это к вопросу о роли пиратских библиотек в скорости роста бума ИИ. Если представить себе какой-то другой мир с гораздо более правовой моделью распространения информации то такой стремительный взлёт ИИ инструментов был бы просто невозможен. Но это какая-то альтернативная вселенная была бы, а де-факто пиратскими материалами пользуются если не весь AI бигтех, то большинство.

#ai #piracy #books
👍15👏3❤‍🔥21🔥1
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов

#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.

Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.

Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.

А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.

#dataengineering #readings #data
17🔥8👍5
Data-Engineering-Design-Patterns-121525.pdf
8.1 MB
Data Engineering Design Patterns
🙏167❤‍🔥41
Forwarded from Open Data Armenia
Open Data Armenia в третий раз объявляет о ежегодном конкурсе проектов, основанных на открытых данных. В этот раз, помимо традиционных культурных приложений и визуализаций данных, у нас есть специальная номинация: лучшее применение ИИ для интерактивных визуализаций, дата-сторителлинга или сбора баз данных. Дедлайн – 25 февраля 2026 г.

Open Data Armenia-ն հայտարարում է բաց տվյալների վրա հիմնված նախագծերի երրորդ ամենամյա մրցույթը։ Այս անգամ, ավանդական դարձած մշակութային հավելվածներից և տվյալների վիզուալիզացիաներից բացի, ունենք հատուկ անվանակարգ՝ արհեստական բանականության լավագույն կիրառումը ինտերակտիվ վիզուալիզացիաների, տվյալահեն պատմությունների (data storytelling) կամ տվյալների բազաների հավաքագրման համար։ Վերջնաժամկետը` 2026 թ․ փետրվարի 25։

Open Data Armenia announces the third annual competition for open data-based projects. This time, in addition to cultural applications and data visualizations, we have a special category: the best application of AI for interactive visualizations, data storytelling, or database collection. Applications for participation in the competition must be submitted by February 25, 2026.
7👍3🔥3
Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).

Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.

#opendata #bhutan #datacatalogs
👍31😁1🌚1
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.

#opendata #datasets #data #europe
👍41🔥1🤔1
Наблюдаю взлет сервисов автоматического документирования публичных (и не публичных) репозиториев кода. Помимо хорошо известного DeepWiki есть, как минимум, Zread.ai и os.ninja, DeepWiki-Open, OpenDeepWiki, GitSummarize, DeepDocs и другие.

Некоторые из них даже выглядят симпатично, но ИМХО, в генерации документации для открытых репозиториев есть минус в том что это будет хорошо пока Github не сделает это как часть их подписки и тогда у всех сервисов которые сейчас есть и создаются останется востребованность только для кода вне Github'а или же придется очень сильно конкурировать за качество итоговой документации.

В общем, выглядит это всё это как интересный тренд, но с непонятным итогом потому что неявным маркетмейкером тут является Github (Microsoft) который быстро может убить все эти попытки, ну или как минимум сильно обесценить.

Но сама идея интересная и самое её очевидное применение legaltech. Потому что понятное структурированное и логичное изложение НПА по отдельности и по блокам это то что нехватает очень сильно. Мне, правда, самому легалтех не очень интересен, ибо я много матом ругаться и коньяка пить начинаю когда читаю законы. Но общая идея, ИМХО, понятна - в областях где есть объекты требующие подробного понятного изложения и где нет подобных маркетмейкеров подход через автогенерацию документацию в стиле вики будет оправдан

#thoughts #ai #documentation
🔥421🤔1
На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.

Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.

Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.

Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.

Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.

Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.

#opendata #europe #rdf #semanticweb #linkeddata #thoughts
👍4🤔211
Когда-то я делал похожий инструмент, набор библиотеки и тетрадки Jupyter для работы с бюджетными данными в РФ. Он дергал отчеты Федерального казначейства и данные из систем Минфина РФ и давал возможность проводить аналитику над этими данными разными способами и инструментами. Честно говоря я это всё подзабросил после ухода из Счетной палаты где это было актуально, а сейчас есть ограниченное применение у таких данных (но оно есть конечно).

А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.

Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.

#opendata #armenia #budget
1
Forwarded from Open Data Armenia
Для тех кто интересуется открытыми данными по государственным финансам в Армении, отличная инициатива Armenian State Budget Tools в виде открытого исходно кода и данных на Github.

Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.

Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.

Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!

Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am

#opendata #budget #armenia
👍4
Мы забаним вас и высмеем публично, если вы потратите наше время на всякую ерунду. (c)

Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl

Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.

Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂

#opensource
👍10💯6🔥5😁31🤔1
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.

Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).

Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.

#opensource #data #datatools #dataengineering
🔥9👍5😱1