Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Как центральные банки в мире публикуют данные? В большинстве стран резервные/центральные/национальные банки это весьма консервативные организации, чаще всего публикующие данные в виде Excel, а то и PDF файлов на своих сайтах и если и предоставляющие API, то только для курсов валют. Тем не менее есть примеры системной публикации открытых данных некоторыми из них.

Портал открытых данных центрального Банка Бразилии [1] сделан на CKAN, включает как оперативные, так и редко обновляемые данные. Все они публикуются под открытой лицензией Open Data Commons Open Database License (ODbL)

Открытые данные Банка Греции [2] это де-факто каталог индикаторов с возможностью их выгрузки в Excel формате и дополнительной фильтрацией по частоте обновления. Все под лицензией Creative Commons 4.0

ECB Data Portal [3] портал данных Европейского Центрального Банка, включает продвинутое API для публикации данных с поддержкой SDMX.

ECOS Economic Statistics System [4] система индикаторов Банка Кореи. Визуально наглядно, но несколько устаревший. Нет открытого API, но есть недокументированное.

Примеров публикации официальной статистики банками гораздо больше, полноценные открытые данные всё ещё редкость.

Ссылки:
[1] https://opendata.bcb.gov.br/
[2] https://opendata.bankofgreece.gr
[3] https://data.ecb.europa.eu
[4] https://ecos.bok.or.kr

#opendata #finances #banking #datasets #datacatalogs
Я давно не напоминал что, помимо всего прочего, я веду реестр каталогов данных по всему миру, Common Data Index [1] и там уже почти 10 тысяч записей, большая часть которых - это геопорталы/каталоги геоданных. Но также много порталов открытых данных, микроданных, научных данных, каталогов индикаторов и каталогов данных для машинного обучения. Список пополняется постоянно, но работы ещё много.

В последнее время всё больше новых каталогов данных из систем национальной статистики и национальных банков стран, о них много что можно рассказать. А пока поделюсь некоторыми накопленными наблюдениями тезисами


1. Очень малое пересечение современной дата инженерии, дата анализа и data science с порталами открытых данных и вообще почти всеми системами раскрытия информации госорганами. Публикация данных в Parquet большая редкость, в лучшем случае доступны данные в форматах SPSS или Stata, а чаще просто CSV/XLS. Официальная статистика, в принципе, феноменально консервативна. Не так много статслужб публикующих данные на постоянной основе как открытые данные, но почти все так или иначе данные публикуют.

2. Наибольший прогресс и потенциал развития в открытости научных данных. Там есть хорошие обоснования, институциональная поддержка, системная работа, обоснованная аргументация, государственные программы и многое другое ориентированное на открытость. Но нет рынка. Нет областей применения себя любому амбициозному человеку поскольку всё построено на коллаборации и согласованности совместной глобальной работы. Поэтому (но не только поэтому) в этой области почти нет стартапов и активного бизнес присутствия.

3. Государства практически не создают каталогов данных для развития ИИ. Два концентратора данных и моделей - Kaggle и HuggingFace используются всеми, частными, корпоративными и государственными исследователями. Только в некоторых странах такие наборы данных публикуются на официальных порталах открытых данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #data #thoughts
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch
К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.

Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.

Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.

Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.

Но про эти ограничения важно не забывать.

#opendata #russia #dateno #datacatalogs
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]

Как думаете, что не так с этими опросами?

Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.

Так что нет в Казахстане портала открытых данных;)

А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.

P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.

Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz

#opendata #kazakhstan #closeddata #datacatalogs
Наконец-то уже можно представить широко, проект Dateno, поисковая система по датасетам, о которой я писал и выступал на днях открытых данных в Ереване и в России, теперь доступна для всех желающих.

Подробнее в анонсе на Product Hunt.
Там, кстати, не хватает Ваших лайков, если каждый у кого там есть аккаунт зайдёт и отметит его, то это очень поможет;)

Сейчас в Dateno 10 миллионов наборов данных из 4.9 тысяч каталогов данных, поддерживается 13 поисковых фасетов/фильтров и вскоре будет открытое API и дополнительно открытый код.

Отдельное спасибо всем бета тестерам за отклики и обратная связь всегда бесценна. Если найдете ошибки, неудобства или идеи - пишите обязательно.

#opendata #datasets #data #datacatalogs #dateno
Данные которые не скачать напрямую, но которые всё ещё открытые данные.

Есть такая особенность у данных машинного обучения что каталоги и реестры для их публикации часто не содержат прямых ссылок на файлы или же доступ по прямым ссылкам не является основнным. Это кажется очень странным, но это так. Вместо этого они содержат ... код для доступа к датасетам.

Те кто занимается задачами по data science к такому привычны давно, те кто использует другие инструменты могут находить это весьма необычным.

Вот несколько примеров:
- Tensorflow Catalog [1] каталог наборов данных к продукту Tensorflow, по каждому датасету есть информация о первоисточнике, объёму и способу подключения используя Tensorflow
- UC Irvine Machine Learning Repository [2] каталог датасетов для машинного обучения. Кроме ссылки на выгрузку, генерируется код для Python, а для каталога есть специальная открытая библиотека
- аналогично с каталогом датасетов Pytorch [3], сразу код для импорта и это логично ведь он часть библиотеки

Не говоря уже о Kaggle и HuggingFace, там такой режим доступа по умолчанию. Можно сказать что это code - first стратегия для работы с данными.

Один из интересных вопросов в том как индексировать такие датасеты. Помимо того что все такие каталоги написаны очень по своему, так ещё и получается что у них нет такого понятия как ресурсы, файлы или ссылки, в ситуации когда доступ только через API. Зато есть автогенерация кода, причём, в основном сразу в Python.

Это одна из причин почему в Dateno пока ещё мало датасетов по Machine Learning, все каталоги в этой области очень специфичны и не все дают возможность индексировать их просто и давать ссылки на файлы.

Но, конечно, вскоре и они будут добавлены

Ссылки:
[1] https://www.tensorflow.org/datasets/catalog/overview
[2] https://archive.ics.uci.edu/
[3] https://pytorch.org/vision/stable/datasets.html
[4] https://paperswithcode.com/dataset/cityscapes

#opendata #datasets #datacatalogs #ml #datascience #python
В продолжение размышлений о том как устроен доступ к данным во многих дата каталогах, кроме примера с доступом через API [1], есть много примеров когда каталоги данных интегрированы в платформы которые их предоставляют.

Например, Microsoft Planetary Computer [2], сервис визуализации и каталог особо крупных геоданных. Часть данных доступны только через API по спецификации STAC, часть данных лежат файлами в облаке Azure и ссылки на них выглядят как abfs://items/sentinel-3-synergy-vgp-l2-netcdf.parquet, а часть доступны только по запросу и тоже лежат файлами в разных форматах.

Кроме Microsoft подобное практикуют Amazon с их каталогом открытых данных [3] и ссылками на внутренние ресурсы S3 вроде таких arn:aws:s3:us-east-1:184438910517:accesspoint/bdsp-psg-access-point/PSG/

Похожее с датасетами в каталоге Google Earth [4] когда вместо данных отдаётся сниппет для подключения и код Javascript.

Такое неслучайно, такие порталы чаще всего включают внешние данные, например, данные НАСА или научных проектов, прошедшие обработку, очистку и приведенные в формат используемой платформы. Такие владельцы, по сути BigTech, публикуют датасеты чтобы привлечь к себе аудиторию разработчиков и удержать её. Для компаний владеющих инфраструктурой и привлекающей пользователей - это вполне логичная бизнес стратегия, причём даже с некоторой социальной составляющей, поскольку это даёт и бесплатное пространство нужное для некоторых данных и быстрый доступ ко многим данным, опять же, по цене аренды сервера который ты, возможно, и так бы арендовал.

Всё это довольно сильно усложняет индексацию таких каталогов данных в Dateno поскольку для них, по хорошему, нужен другой подход и другая стратегия, как давать ссылки на такие ресурсы. Можно просто дать ссылку на карточку в оригинальном каталоге, но многие поисковые фасеты выпадают, ссылки на ресурсы не работают.

Эти примеры немногочисленны количественно и многочисленны качественно. Датасетов от BigTech компаний в лучшем случае тысячи, правда объёмы там идут на петабайты. А есть есть и другой пример. Очень многие порталы со статистикой отдают данные только по POST запросу. В этом, может быть, когда-то была логика, когда 10-15 лет назад они создавались, а сейчас у этих индикаторов нет ссылок на данные. Иногда и на сам индикатор явной ссылки нет. Что делать? Проиндексировать их возможно, но как помогать пользователю получать данные? Делать копию не только метаданных, но и данных и отдавать их из своей БД? Это уже другой продукт. Делать прокси для POST запросов? Для типовых порталов возможно, для нетиповых это большое усложнение.

Итого многие данные доступны только в режиме когда есть ссылка на веб страницу, в первую очередь потому что их владельцы, или не подумали о доступе прямом, или затягивают в свою инфраструктуру.

Это лишь один из примеров задач относящихся к сложности создания поисковика Dateno и ответов на вопросы "А это точно дата каталог?", "А он типовой?", "А как индексировать оттуда данные?" и многое другое.

Ссылки:
[1] https://t.me/begtin/5526
[2] https://planetarycomputer.microsoft.com
[3] https://registry.opendata.aws
[4] https://developers.google.com/earth-engine/datasets
[5] https://dateno.io

#opendata #datasets #data #datacatalogs #dateno
В рубрике как это устроено у них каталог научных данных SPARC [1] посвящённый исследованиям тела и мозга. Является результатом совместного проекта нескольких исследовательских центров в США.

Из особенностей, кроме данных публикуют ещё компьютерные и анатомические модели, а все опубликованные ресурсы ещё и организованы с возможностью фильтрации по виду животного, полу, анатомической структуре и так далее.

Отличается тем что данные, в основном, большого объёма и файлы до 5GB можно скачать бесплатно, а файлы большего размера только через Amazon AWS или через сервис Osparc [2] по запросу.

На портале есть уникальная фича, визуализация датасетов [3] с помощью утилиты SDS Viewer, вот, пример [4]

Ссылки:
[1] https://sparc.science
[2] https://osparc.io/
[3] https://metacell.github.io/sds-viewer/
[4] https://metacell.github.io/sds-viewer/?doi=10.26275%2Fodx3-c5cv

#opendata #datacatalogs #datatools #data #brain #body #datasets
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.

Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.

Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.

Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)

Ссылки:
[1] https://superset.apache.org

#opendata #datasets #data #datatools #superset #bi #datacatalogs