Ivan Begtin
9.07K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них открытые данные в Австрии собраны на национальном портале data.gv.at где опубликовано 63 тысячи с небольшим наборов данных по самым разным тематикам. Портал работает на базе ПО CKAN, к нему доступно REST API, а данные экспортируются в форматах связанных данных и почти у всех наборов данных есть привязанная свободная лицензия. В целом портал и все инициативы по открытым данным в Австрии напрямую взаимосвязаны и ссылаются на политики Евросоюза и, в частности, сейчас имеют фокус на публикацию данных особой ценности (HVD) и переход к публикации данных необходимых для обучения ИИ.

Некоторые особенности австрийского портала данных в том что, как и во многих других странах, создатели портала используют искусственное дробление наборов данных для демонстрации их количества. так из 63 тысяч наборов данных 52 тысячи наборов данных - это файлы муниципальных бюджетов страны (1692 муниципалитета) разбитые по годам примерно за 20 лет и по нескольким вида бюджетной отчетности с другого официального портала www.offenerhaushalt.at

Все эти 52 тысячи наборов данных можно свести от 1 до 1692 (единая база или дробление только по территориям), а все остальное это очень искусственное разделение не имеющее отношения к сценариям использования пользователями.

Я такое дробление данных вижу нередко, оно бывает оправдано для улучшения поиска данных, когда создают датасеты по территориальному принципу, но совсем неоправдано для дробления по годам.

В целом же в Австрии 58 порталов данных и это скорее всего не все из них подсчитаны, реально может быть и больше. Многие данные публикуются в исследовательских репозиториях данных или в каталогах геоданных, которые лишь частично собираются на национальном портале.

#opendata #austria #datacatalogs
41
В рубрике как это устроено у них Fairstack 1.0 комплект продуктов и сервисов от Китайской академии наук (СAS) по организации инфраструктуры работы с данными для исследователей. Включает множество инструментов с открытым кодом и разработанных в компьютерном центре CAS для организации работы исследователей.

Минус - все на китайском
Плюс - все довольно таки грамотно описано и организовано и адаптируемо под разные научные дисциплины. Например, каталог данных InstDB для публикации данных исследователями и множество инструментов по их обработке, подготовке, хранению и так далее.

#opendata #datacatalogs #china
👍4
Ещё в рубрике как это устроено у них FranceArchives официальный архивный портал Франции. Включает более 29 миллионов записей из которых более 5 миллионов - это оцифрованные документы, фотографии, карты и иные цифровые артефакты агрегированные из сотен музеев и архивов страны.

Предоставляют открытое API в виде интерфейса SPARQL, у каждой записи есть RDF, JSON-LD и N3 карточки с описанием со всеми метаданными в структурированой форме и есть возможность получить карточку записи в виде CSV файла.

#opendata #data #digitalpreservation
13👍2🔥2😢1
Я недавно писал про Fairstack китайский комплект ПО для открытой науки и про их ПО для институциональных репозитриев данных InstDB. Важная характеристика китайской науки - это систематизация и доступность данных, в том числе по разным дисциплинам. Но есть немаловажный нюанс - существенная изолированность от мира.

У меня есть реестр из 72 инсталляций InstDB из которых удалось открыть лишь 12 при попытках открыть их с IP адресов в Армении, России, США и Германии. Причем 12 открылись только с IP адреса в России, а с других открывались только 6. При том что я точно знаю что большая часть этих сайтов работают, но пока не обзавелся сервером/IP адресом в Китае. Но данные из этих порталов эффективно индексируются внутри Китая в базу SciDB и в поисковик findata.cn.

#opendata #openaccess
👍52
Forwarded from Open Data Armenia
Всем привет! Для тех у кого есть немного времени помочь сообществу мы подготовили несколько задач для волонтеров по сбору данных. Наша цель наполнить каталог данных data.opendata.am большим числом наборов данных посвященных культуре Армении и армян по всему миру опубликованные в разных странах и на разных языках.

Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках

У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.

Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.

Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.

Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!

2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)

В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.

Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB

Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.

Спасибо всем кто готов помогать создавая открытые данные!

#opendata #armenia #culture #volunteering #helpneeded
👍543
(Часть вторая)

3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.

Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.

Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.

У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента

Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.

Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.


Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.

#thoughts #openness #data #opendata #openaccess
👍121
cartes.gouv.fr новый федеральный портал геоданных Франции, анонсирован в середине декабря 2025 года IGN France (Национальный институт географической и лесной информации). В его основе продукт с открытым кодом Geonetwork с расширением в виде geonetwork-ui для более удобного поиска и визуализации. Пока там всего 174 набора данных и сервиса API, но явно будет больше.

Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.

Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.

#opendata #france #geodata
👍8