Ivan Begtin
9.07K subscribers
2.55K photos
5 videos
114 files
5.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).

Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.

#opendata #bhutan #datacatalogs
👍31😁1🌚1
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.

#opendata #datasets #data #europe
👍41🔥1🤔1
На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.

Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.

Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.

Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.

Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.

Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.

#opendata #europe #rdf #semanticweb #linkeddata #thoughts
👍4🤔211
Когда-то я делал похожий инструмент, набор библиотеки и тетрадки Jupyter для работы с бюджетными данными в РФ. Он дергал отчеты Федерального казначейства и данные из систем Минфина РФ и давал возможность проводить аналитику над этими данными разными способами и инструментами. Честно говоря я это всё подзабросил после ухода из Счетной палаты где это было актуально, а сейчас есть ограниченное применение у таких данных (но оно есть конечно).

А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.

Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.

#opendata #armenia #budget
1
Forwarded from Open Data Armenia
Для тех кто интересуется открытыми данными по государственным финансам в Армении, отличная инициатива Armenian State Budget Tools в виде открытого исходно кода и данных на Github.

Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.

Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.

Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!

Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am

#opendata #budget #armenia
👍4
В рубрике интересных наборов данных, данные по международной торговли из проекта PortWatch Международного валютного фонда (IMF). От классических измерений международной торговли они отличаются тем что состоят из фактов мониторинга портозаходов грузовых кораблей в порты и на основе этого и их тоннажа и типа корабля оценка объёма грузоперевозок.

Ежедневная оценка активности порта и объёма торговли
по множеству портов и с 2019 года

Для проекта используются данные собираемые в рамках UNGP (UN Global Platform).

Де-факто это данные коммерческого поставщика Spire торгующего данными спутникового мониторинга, в числе, судов по их сигналам AIS и сопоставленные с данными FleetMon и других реестров параметров судов.

Конечно, эти данные только статистика, не указывая конкретных судов и без охвата судов с отключенными транспондерами AIS.

Тем не менее всего там более 5 миллионов рядов на основе которых можно делать визуализации или анализировать экономическую активность по странам и регионам.

#opendata #datasets #trade
👍11🔥2
В рубрике интересных наборов данных, презентация от DataCite по их интерфейсам публикации данных в индексе регистрации научных данных. Включает описание REST API, других API, годовых дампов и ежемесячных файлов с изменениями.

Дампы они публикуют на AWS в JSONL формате сжатом Gzip.

Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI

Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.

Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.

#opendata #datasets
👍411