Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.

#opendata #datasets #data #europe
👍41🔥1🤔1
На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.

Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.

Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.

Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.

Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.

Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.

#opendata #europe #rdf #semanticweb #linkeddata #thoughts
👍4🤔211
Я, кстати, пропустил эту новость, а оказывается в конце ноября 2025 г. проект языка Zig полностью мигрировал с Github на Codeberg и теперь именно там его исходный код, задачи, команда разработки и тд. Для тех кто не слышал о нем Codeberg - это некоммерческая открытая платформа для хостинга открытого кода созданная на базе Forgejo открытой.и бесплатной альтернативе Github, Gitlab, Gitea для самостоятельнрого создания системы контроля кода поверх Git.

Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.

Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.

Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.

С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.

Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.

#opensource #europe #github #codeberg #zig
6🤔52