Ivan Begtin
9.38K subscribers
2.26K photos
4 videos
106 files
4.95K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.

Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]

Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.


Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/

#opendata #openaccess #datacatalogs
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.

Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.

Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam

#opendata #datasets #statistics #census
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉

Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.

Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.

GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.

ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.

Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.

Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.

#opendata #datasets #geodata #search
Свежий любопытный проект по культурному наследию, на сей раз Шотландии - trove.scot явно названному по аналогии с гигантским австралийским проектом Trove с теми же функциями, но по всему культурному наследию Австралии.

Шотландский проект включает 1.2 миллиона изображений, иных архивных записей, объектов, мест и тд. относящихся к Шотландии прямо или косвенно. Например, фотографии Архангельска куда заходили шотландские рыбаки. Часть данных доступны как файлы наборов данных и слои карт WFS/WMS

#opendata #culturalheritage #uk #scotland
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.

Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet

Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.

Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.

#opendata #dataviz #datasets #localdata
Я тут регулярно пишу про Dateno наш поисковик по открытым и иным общедоступным данным, у нас там сейчас уже более 22 миллионов датасетов, слоёв карт и временных рядов и мы работаем над расширением объёма. Однако есть и другой фронт работы - повышение удобства для пользователей. В моём изначальном видении пользователи хотят API (в самом деле ну какие пользователи не хотят API, лично я всегда использую API когда есть возможность). Сейчас наш основной API - это упрощённый поиск, им можно пользоваться чтобы находить данные и получив карточку записи выкачивать ресурсы.

Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)

Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!

#dateno #opendata #datasearch #api
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [1] для тех кому нужны большие данные для обучения ИИ. По ссылке статья и другие материалы про этот набор данных в 8 терабайт текстов.

Это если не крупнейший, то один из крупнейших наборов данных с текстами под разрешающими использование лицензиями (все, конечно, понимают что реально для ИИ используют не только разрешённое, но тем не менее).

Большая часть источников это:
- каталоги статей открытого доступа
- проекты Фонда Викимедия (Википедия и тд)
- открытые патентные базы
- базы судебных решений США
- базы книг до 1929 года

В основном все материалы на английском языке и происходящие из США. Более 30 источников.

Ссылки:
[1] https://huggingface.co/papers/2506.05209

#opendata #datasets #ai
Заработала пилотная инфраструктура Европейского консорциума Open Web Search по созданию открытого европейского поисковика [1] всё под эгидой цифрового суверенитета Евросоюза, дословно - Europe’s Independence in Web Search.

Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].

У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке

Исходный код доступен в открытых репозиториях [3]

Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.

Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/

#opendata #datasets #websearch #europe
В рубрике как это устроено у них официальные сайты метеорологических служб 20 африканских стран работают на одном стандартизированном продукте с открытым кодом Climweb [1], например, это метеослужбы Бенина [2] и Нигера [3] и многих других, а также планируется что ещё в 6 странах метеослужбы перейдут на это ПО.

В чём его особенность:
- открытый код на базе Python + Wagtail
- совместная разработка офиса WMO и NORCAP, это норвежский центр по гуманитарному развитию при Правительстве Норвегии
- унифицированное, правда, недокументированное API
- под лицензией MIT

Все эти порталы работают в связке с общей инфраструктурой WMO и провайдерами данных, в ряде стран установлены, также, сервисы Wis2Box собирающие данные со станций наблюдения и отдающие их по стандартным протоколам OGC для геоданных. Про Wis2Box я ранее писал и, похоже, их распространение сильно продвинулось на последние 1.5 года. Как каталоги данных они очень невелики, а как открытые климатические данные любопытны.

Ссылки:
[1] https://github.com/wmo-raf/climweb
[2] https://www.meteobenin.bj/
[3] https://www.niger-meteo.ne/

#opendata #api #climate #opensource