Ivan Begtin

Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.

Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов

Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)

#opendata #datasets #WHO #datacatalogs

👍3✍2❤1

1.47K viewsIvan Begtin, 08:00

Ivan Begtin

Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.

Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.

По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.

Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.

На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.

Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.

Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.

#opendata #datasets #dateno #data #datacatalogs

👍12❤‍🔥3🔥3❤1

1.54K viewsIvan Begtin, edited 10:42

Ivan Begtin

В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.

#opensource #data #datasets #dataengineering

GitHub

GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…

The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...

👍8

1.54K viewsIvan Begtin, 18:42

Ivan Begtin

В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.

Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.

Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.

#opendata #usa #energy #datacatalogs #datasets

⚡6👍3❤1🔥1

1.49K viewsIvan Begtin, 19:28

Ivan Begtin

Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.

Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.

Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.

#opendata #standards #data #datasets

👍8❤2🤝1

1.26K viewsIvan Begtin, 16:21

Ivan Begtin

В рубрике как это устроено у них.

Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.

Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.

Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).

#opendata #datasets #openaccess #denmark #datatools

👍2✍1🔥1

1.41K viewsIvan Begtin, 18:15

Ivan Begtin

Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata

😢20💊5❤2✍1👏1🕊1🌚1💯1

2.03K viewsIvan Begtin, 15:26

Ivan Begtin

Для тех кто интересуется глобальными геодатасетами Global Canopy Heights (Глобальная высота растительного покрова) эти обновленные данные совсем недавно Meta опубликовали как открытую модель на 22ТБ и появился уже сервис chm.geocarpentry.org для выгрузки из него по странам или по конкретным блокам. Он позволяет извлечь из датасета слепки по интересующим территориям.

#opendata #datasets #geodata

👍12❤2❤‍🔥1

1.81K viewsIvan Begtin, edited 07:27

Ivan Begtin

Ещё один любопытный проект про данные в эпоху ИИ ассистентов Legal Data Hunter в виде базы нормативно-правовых и судебных документов со всего мира. Явно пэт-проект одного разработчика, бизнес идея если и прослеживается, то в ней есть сомнения, автор явно хочет продавать API к глобальной базе законов и судебных решений чтобы кто угодно мог подключать их к своим ИИ ассистентам. Открытые данные там тоже есть - это каталог источников юридических документов legal-sources организованный на удивление похоже с тем как я создавал реестр Dateno, в виде большой коллекции YAML файлов по каждому источнику.

Весь проект с конвеерами сбора данных, сбором источников и тд. автор писал с помощью ИИ. Написал он всё это в очень короткий срок и охватывает уже источники более чем по 40 странам (остальные в статусе "запланировано").

Порог входа для создания таких проектов теперь резко сократился, можно сделать в одиночку за недели то что команда разработчиков раньше делала бы полгода или дольше.

Конкретно судьба этого проекта не так интересна, а вот руках более продвинутой LegalTech команды можно создавать базы НПА и судебных решений другого уровня.

#opendata #datasets #ai

❤4✍2🤔2

1.62K viewsIvan Begtin, 12:59

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings

ACM Computing Surveys

Dataset Discovery and Exploration: A Survey | ACM Computing Surveys

Data scientists are tasked with obtaining insights from data. However, suitable data
is often not immediately at hand, and there may be many potentially relevant datasets
in a data lake or in open data repositories. As a result, data discovery and ...

👍2❤1

1.25K viewsIvan Begtin, 06:46

Ivan Begtin

В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)

Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.

И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.

P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.

#opendata #geodata #datasets

stacspec.org

STAC: SpatioTemporal Asset Catalogs

The STAC specification is a common language to describe geospatial information, so it can more easily be worked with, indexed, and discovered.

👍3✍2❤1🔥1🤝1

1.76K viewsIvan Begtin, 16:36

Ivan Begtin

Я ранее уже писал про Digital Public Infrastructure, то что государства создают цифровую инфраструктуру которую можно рассматривать как одну из форм общественной инфраструктуры и общественного блага, примерно как дороги, или общественные здания и тому подобное.

Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.

Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.

#opendata #dpi #datasets #government

Ivan Begtin

Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее…

👍6❤1

1.25K viewsIvan Begtin, 12:52

Ivan Begtin

В рубрике как это устроено у них портал открытых научных данных Швеции Researchdata.se

Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.

Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.

Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.

Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).

#opendata #data #datasets #researchdata #sweden

👍7✍1⚡1

1.14K viewsIvan Begtin, 14:47

About

Blog

Apps

Platform