Ivan Begtin
9.29K subscribers
2.06K photos
3 videos
102 files
4.79K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.

Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.

Когда портал "оживёт" я подробно разберу его в рассылке на Substack.

Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.

А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.

Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.

#opendata #data #russia #datacatalogs
Про плохие примеры публикации данных, один из давних проектов по открытым данным это платформа Open Data for Africa запущенная в 2011 году [1] Африканским Банком Развития в партнёрстве с компанией Knoema.

С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.

С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.

В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.

При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.

Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.

Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry

#opendata #africa #baddata #datacatalogs #data
Я ранее писал про некоторые каталоги данными с открытыми языковыми ресурсами и про испанский национальный проект по созданию языковых моделей и открытых датасетов, но этот пример далеко не единственный.

В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.

Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]

Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)

Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)

США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов

Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе

Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets

#opendata #dataset #glam #openglam #datacatalogs
В рубрике как это устроено у них каталог визуализаций 3D сканов археологических объектов, объектов культурного наследия и иных научных коллекций физических объектов MorphoSource [1]. Включает визуализацию результатов сканирования, возможность запросить сами данные и обеспечивает доступность данных, чаще опубликованных под лицензией CC-BY-NC, свободное использование для некоммерческих целей.

Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.

У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.

Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource

#opendata #datacatalogs #datasets #archeology
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на ibegtin@opendata.am и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
В рубрике как это устроено у них о том как трансформируются научные журналы в сторону работы с данными. Журнал European Journal of Taxonomy открыл портал с данными по биоразнообразию на своём сайте [1]. Портал явным образом интегрирован с проектом GBIF и другими порталами данных в этой области и теперь на нём размещены наборы данных в форме датасетов и инструментов поиска по спискам биоразнообразия.

При этом он реализован не на движке IPT который распространяет GBIF, а неким другим образом, не удивлюсь если это какая-то собственная разработка особенностью которой является представление данных в виде кластеров [2], а также возможности поиска и аналитики.

Фактически журнал переходит от работы со статьями к работе с данными и широким набором инструментов аналитики. Это принципиально иной подход к работе с их аудиторией, исследователями.

В виду специфики темы они работают со специальными форматами данных описываемых в формате MetoTaxa, это так называемый XML-first подход [3] и работа со стандартизированными данными.

Ссылки:
[1] https://europeanjournaloftaxonomy.eu/index.php/ejt/announcement/view/45
[2] https://data.europeanjournaloftaxonomy.eu/occurrence/search/?view=CLUSTERS
[3] https://www.ouvrirlascience.fr/adaptation-of-metopes-for-taxonomy-edition/

#opendata #biodiversity #biology #datacatalogs
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.

Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.

Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.

Ссылки:
[1] https://github.com/RolnickLab/OpenForest

#opendata #datacatalogs #datasets
Ожидаемая новость, Coalesce купили каталог данных CastorDoc [1], это был один из наиболее интересных каталогов корпоративных данных или их ещё можно называть каталогами метаданных. CastorDoc сделали сильный акцент на использовании ИИ и автоматизации документирования и контроля качества данных.

Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/

#dataengineering #data #datacatalogs
В рубрике как это устроено у них портал данных Humanitarian Data Exchange [1] это один из порталов открытых данных ООН, он был создан Управлением ООН по координации гуманитарных вопросов для публикации данных связанных и значимых для решения глобальных и региональных гуманитарных кризисов и для координации множества организаций помогающих в предупреждении катастроф и минимизации последствий.

Важное их отличие от других порталов открытых данных - это наличие событийного разреза. Например, в момент начала землетрясения в Мьянме они создали соответствующую страницу события [2] где собраны, на сегодня, 20 наборов данных связанных с Мьянмой. Например, оценка масштабов повреждения зданий [3] с помощью AI на основе анализа спутниковых снимков до и после землетрясения от Microsoft AI Labs или вот данные о финансировании [4] и донорах для организаций участвующих в ликвидации последствий.

Ссылки:
[1] https://data.humdata.org/
[2] https://data.humdata.org/event/myanmar-earthquake
[3] https://data.humdata.org/dataset/myanmar-earthquake-building-damage-assessment-from-3-28-2025
[4] https://data.humdata.org/dataset/fts-requirements-and-funding-data-for-myanmar

#opendata #myanmar #earthquake #ocha #datacatalogs
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).

Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.

Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/

#opendata #dateno #datacatalogs