Ivan Begtin

Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).

Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.

#opendata #bhutan #datacatalogs

👍3⚡1😁1🌚1

1.57K viewsIvan Begtin, 20:29

Ivan Begtin

Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.

#opendata #datasets #data #europe

👍4✍1🔥1🤔1

1.46K viewsIvan Begtin, 06:36

Ivan Begtin

На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.

Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.

Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.

Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.

Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.

Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.

#opendata #europe #rdf #semanticweb #linkeddata #thoughts

Dateno

Dateno - datasets search engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

👍4🤔2✍1⚡1

1.34K viewsIvan Begtin, 15:30

Ivan Begtin

Когда-то я делал похожий инструмент, набор библиотеки и тетрадки Jupyter для работы с бюджетными данными в РФ. Он дергал отчеты Федерального казначейства и данные из систем Минфина РФ и давал возможность проводить аналитику над этими данными разными способами и инструментами. Честно говоря я это всё подзабросил после ухода из Счетной палаты где это было актуально, а сейчас есть ограниченное применение у таких данных (но оно есть конечно).

А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.

Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.

#opendata #armenia #budget

❤1

1.45K viewsIvan Begtin, 17:38

Ivan Begtin

Forwarded from Open Data Armenia

Для тех кто интересуется открытыми данными по государственным финансам в Армении, отличная инициатива Armenian State Budget Tools в виде открытого исходно кода и данных на Github.

Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.

Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.

Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!

Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am

#opendata #budget #armenia

GitHub

GitHub - gituzh/armenian-budget-tools

Contribute to gituzh/armenian-budget-tools development by creating an account on GitHub.

👍4

1.44K viewsIvan Begtin, 17:38

Ivan Begtin

В рубрике интересных наборов данных, данные по международной торговли из проекта PortWatch Международного валютного фонда (IMF). От классических измерений международной торговли они отличаются тем что состоят из фактов мониторинга портозаходов грузовых кораблей в порты и на основе этого и их тоннажа и типа корабля оценка объёма грузоперевозок.

Ежедневная оценка активности порта и объёма торговли по множеству портов и с 2019 года

Для проекта используются данные собираемые в рамках UNGP (UN Global Platform).

Де-факто это данные коммерческого поставщика Spire торгующего данными спутникового мониторинга, в числе, судов по их сигналам AIS и сопоставленные с данными FleetMon и других реестров параметров судов.

Конечно, эти данные только статистика, не указывая конкретных судов и без охвата судов с отключенными транспондерами AIS.

Тем не менее всего там более 5 миллионов рядов на основе которых можно делать визуализации или анализировать экономическую активность по странам и регионам.

#opendata #datasets #trade

👍11🔥2

1.62K viewsIvan Begtin, 05:13

Ivan Begtin

В рубрике интересных наборов данных, презентация от DataCite по их интерфейсам публикации данных в индексе регистрации научных данных. Включает описание REST API, других API, годовых дампов и ежемесячных файлов с изменениями.

Дампы они публикуют на AWS в JSONL формате сжатом Gzip.

Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI

Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.

Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.

#opendata #datasets

👍4❤1✍1

1.38K viewsIvan Begtin, 15:59

Ivan Begtin

В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)

Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)

#opendata #russia

😢6🤣5💅4👏2🍌2

1.41K viewsIvan Begtin, 16:32

Ivan Begtin

Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR

Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все

В основном участники там - это университеты США входящие в ICPSR.

Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week

Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия

#opendata #opengov #events

👍11🔥4

1.8K viewsIvan Begtin, 07:02

Ivan Begtin

ecosystem.ckan.org - свежий реестр каталогов открытых данных на базе CKAN, всего 695 сайтов построенных на CKAN и на которых публикуются открытые данные. Создано компанией datHere в рамках научного гранта POSE в США выданного на создание экосистемы открытого ПО.

До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu

Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.

И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.

#opendata #datacatalogs #ckan

✍4

1.44K viewsIvan Begtin, 06:12

About

Blog

Apps

Platform