В рубрике как это устроено у них открытые данные в Австрии собраны на национальном портале data.gv.at где опубликовано 63 тысячи с небольшим наборов данных по самым разным тематикам. Портал работает на базе ПО CKAN, к нему доступно REST API, а данные экспортируются в форматах связанных данных и почти у всех наборов данных есть привязанная свободная лицензия. В целом портал и все инициативы по открытым данным в Австрии напрямую взаимосвязаны и ссылаются на политики Евросоюза и, в частности, сейчас имеют фокус на публикацию данных особой ценности (HVD) и переход к публикации данных необходимых для обучения ИИ.
Некоторые особенности австрийского портала данных в том что, как и во многих других странах, создатели портала используют искусственное дробление наборов данных для демонстрации их количества. так из 63 тысяч наборов данных 52 тысячи наборов данных - это файлы муниципальных бюджетов страны (1692 муниципалитета) разбитые по годам примерно за 20 лет и по нескольким вида бюджетной отчетности с другого официального портала www.offenerhaushalt.at
Все эти 52 тысячи наборов данных можно свести от 1 до 1692 (единая база или дробление только по территориям), а все остальное это очень искусственное разделение не имеющее отношения к сценариям использования пользователями.
Я такое дробление данных вижу нередко, оно бывает оправдано для улучшения поиска данных, когда создают датасеты по территориальному принципу, но совсем неоправдано для дробления по годам.
В целом же в Австрии 58 порталов данных и это скорее всего не все из них подсчитаны, реально может быть и больше. Многие данные публикуются в исследовательских репозиториях данных или в каталогах геоданных, которые лишь частично собираются на национальном портале.
#opendata #austria #datacatalogs
Некоторые особенности австрийского портала данных в том что, как и во многих других странах, создатели портала используют искусственное дробление наборов данных для демонстрации их количества. так из 63 тысяч наборов данных 52 тысячи наборов данных - это файлы муниципальных бюджетов страны (1692 муниципалитета) разбитые по годам примерно за 20 лет и по нескольким вида бюджетной отчетности с другого официального портала www.offenerhaushalt.at
Все эти 52 тысячи наборов данных можно свести от 1 до 1692 (единая база или дробление только по территориям), а все остальное это очень искусственное разделение не имеющее отношения к сценариям использования пользователями.
Я такое дробление данных вижу нередко, оно бывает оправдано для улучшения поиска данных, когда создают датасеты по территориальному принципу, но совсем неоправдано для дробления по годам.
В целом же в Австрии 58 порталов данных и это скорее всего не все из них подсчитаны, реально может быть и больше. Многие данные публикуются в исследовательских репозиториях данных или в каталогах геоданных, которые лишь частично собираются на национальном портале.
#opendata #austria #datacatalogs
✍4❤1
В рубрике как это устроено у них Fairstack 1.0 комплект продуктов и сервисов от Китайской академии наук (СAS) по организации инфраструктуры работы с данными для исследователей. Включает множество инструментов с открытым кодом и разработанных в компьютерном центре CAS для организации работы исследователей.
Минус - все на китайском
Плюс - все довольно таки грамотно описано и организовано и адаптируемо под разные научные дисциплины. Например, каталог данных InstDB для публикации данных исследователями и множество инструментов по их обработке, подготовке, хранению и так далее.
#opendata #datacatalogs #china
Минус - все на китайском
Плюс - все довольно таки грамотно описано и организовано и адаптируемо под разные научные дисциплины. Например, каталог данных InstDB для публикации данных исследователями и множество инструментов по их обработке, подготовке, хранению и так далее.
#opendata #datacatalogs #china
👍4
Ещё в рубрике как это устроено у них FranceArchives официальный архивный портал Франции. Включает более 29 миллионов записей из которых более 5 миллионов - это оцифрованные документы, фотографии, карты и иные цифровые артефакты агрегированные из сотен музеев и архивов страны.
Предоставляют открытое API в виде интерфейса SPARQL, у каждой записи есть RDF, JSON-LD и N3 карточки с описанием со всеми метаданными в структурированой форме и есть возможность получить карточку записи в виде CSV файла.
#opendata #data #digitalpreservation
Предоставляют открытое API в виде интерфейса SPARQL, у каждой записи есть RDF, JSON-LD и N3 карточки с описанием со всеми метаданными в структурированой форме и есть возможность получить карточку записи в виде CSV файла.
#opendata #data #digitalpreservation
1✍3👍2🔥2😢1
Я недавно писал про Fairstack китайский комплект ПО для открытой науки и про их ПО для институциональных репозитриев данных InstDB. Важная характеристика китайской науки - это систематизация и доступность данных, в том числе по разным дисциплинам. Но есть немаловажный нюанс - существенная изолированность от мира.
У меня есть реестр из 72 инсталляций InstDB из которых удалось открыть лишь 12 при попытках открыть их с IP адресов в Армении, России, США и Германии. Причем 12 открылись только с IP адреса в России, а с других открывались только 6. При том что я точно знаю что большая часть этих сайтов работают, но пока не обзавелся сервером/IP адресом в Китае. Но данные из этих порталов эффективно индексируются внутри Китая в базу SciDB и в поисковик findata.cn.
#opendata #openaccess
У меня есть реестр из 72 инсталляций InstDB из которых удалось открыть лишь 12 при попытках открыть их с IP адресов в Армении, России, США и Германии. Причем 12 открылись только с IP адреса в России, а с других открывались только 6. При том что я точно знаю что большая часть этих сайтов работают, но пока не обзавелся сервером/IP адресом в Китае. Но данные из этих порталов эффективно индексируются внутри Китая в базу SciDB и в поисковик findata.cn.
#opendata #openaccess
Telegram
Ivan Begtin in Чат к каналу @begtin
В рубрике как это устроено у них Fairstack 1.0 комплект продуктов и сервисов от Китайской академии наук (СAS) по организации инфраструктуры работы с данными для исследователей. Включает множество инструментов с открытым кодом и разработанных в компьютерном…
👍5❤2
Forwarded from Open Data Armenia
Всем привет! Для тех у кого есть немного времени помочь сообществу мы подготовили несколько задач для волонтеров по сбору данных. Наша цель наполнить каталог данных data.opendata.am большим числом наборов данных посвященных культуре Армении и армян по всему миру опубликованные в разных странах и на разных языках.
Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках
У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.
Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.
Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.
Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!
2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)
В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.
Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB
—
Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.
Спасибо всем кто готов помогать создавая открытые данные!
#opendata #armenia #culture #volunteering #helpneeded
Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках
У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.
Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.
Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.
Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!
2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)
В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.
Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB
—
Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.
Спасибо всем кто готов помогать создавая открытые данные!
#opendata #armenia #culture #volunteering #helpneeded
👍5❤4⚡3
(Часть вторая)
3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.
Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.
Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.
У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента
Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.
Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—
Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.
#thoughts #openness #data #opendata #openaccess
3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.
Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.
Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.
У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента
Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.
Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—
Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.
#thoughts #openness #data #opendata #openaccess
👍12❤1
cartes.gouv.fr новый федеральный портал геоданных Франции, анонсирован в середине декабря 2025 года IGN France (Национальный институт географической и лесной информации). В его основе продукт с открытым кодом Geonetwork с расширением в виде geonetwork-ui для более удобного поиска и визуализации. Пока там всего 174 набора данных и сервиса API, но явно будет больше.
Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.
Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.
#opendata #france #geodata
Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.
Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.
#opendata #france #geodata
👍8