Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них отдельный интересный пример работы статслужб на примере Office for National Statistics в Великобритании.

У них сайт службы де-факто превращён в портал данных. Не идеальный, например, нет перечня вообще всего что опубликовано, но очень интересный, потому что хорошо структурирован по разделам и работать с ним удобно по предметным областям.

Вот у него есть, как минимум, три важных особенности:
1. Что кроме самих данных статслужбы что они обязаны публиковать, они ещё и публикуют то что у них запрашивают (!!). Идея за этим проста, есть запросы на публикацию сведений по FOI (Freedom of Information Requests) и если запрашиваемые данные не содержат ничего персонального то деньги налогоплательщиков тратятся на создание датасета и этот датасет должен быть общедоступен. Очень правильная идея в своей основе. [1]

2. У них есть каталог временных рядов на основе переписи [2] с более чем 66 тысячами рядов. Поиск по ним неидеален, даже географических фасетов нет, но и в текущем виде работает.

3. И у них есть портал для разработчиков [3] по работе со стат данными, в первую очередь переписи, что позволяет с тем же банков временных рядов работать через API.

Опять же идеализировать нельзя, много чего нет, например, нет экспорта каталога данных в DCAT, нет поддержки SDMX, документированное API охватывает не всё, многие наборы данных на сайте только в Excel формате, но вот перечисленные три особенности реально полезны.

Ссылки:
[1] https://www.ons.gov.uk/businessindustryandtrade/business/businessservices/datalist?page=1&filter=user_requested_data
[2] https://www.ons.gov.uk/timeseriestool
[3] https://developer.ons.gov.uk/

#opendata #statistics #uk #datasets #datacatalogs
В рубрике как это устроено у них карта растительности Японии [1] доступна в виде в виде 16 Shape файлов по префектурам страны, общим объёмом 4.4GB с детализацией 1/25000.

Он же, уже преобразованный в формат GeoParquet объёмом в 6.2GB в каталоге Source Cooperative [2] где публикуется немало больших геодатасетов.

Таких подробных и открытых карт растительности в мире немного, на уровне страны мне ранее не попадались.

Хороший тест для любой геоинформационной системы способность отобразить такие данные.

Ещё одно наблюдение, в Японии данных публикуется много, но каким-то своим необычным способом. Национальные порталы вроде есть, но найти на них что-то значимое сложно.

Ссылки:
[1] http://gis.biodic.go.jp/webgis/sc-025.html?kind=vg67
[2] https://source.coop/repositories/pacificspatial/vegetation-jp/access

#datasets #opendata #japan
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno
Teable [1] опенсорс продукт и онлайн сервис по созданию интерфейса а ля Airtable поверх баз Postgresql и Sqlite.

Для тех кто ранее сталкивался с Airtable и редактировал онлайн свои таблицы - это более чем идеальная замена. Если Airtable ушли по пути стремительной монетизации и превращения онлайн таблиц в конструкторы приложений, то тут продукт куда более близкий к изначальной идее таблиц онлайн. Фактически это онлайн замена MS Access, но, и это важно, поверх классической СУБД. А то есть данные можно править и вручную и автоматизировано.

Я теста ради загрузил одну из наиболее крупных таблиц из Airtable что у меня были, это таблица российских госдоменов для проекта @ruarxive (Национальный цифровой архив) и работает сервис прекрасно.

Ещё одна важная его особенность - это его можно разворачивать локально и работать со своими данным на собственном экземпляре продукта.

Ну а также они в бета режиме сейчас предоставляют сам сервис онлайн бесплатно, но монетизацию рано или поздно введут, так что open source выглядит интереснее.

Ссылки:
[1] https://teable.io

#opensource #datasets #datatools
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings
В блоге Anna's Archive конкурс на визуализацию датасета ISBN'ов [1] (уникальных кодов книг). Что интересно, поскольку во первых там открытые наборы данных, а во вторых призовой фонд в $10000 в виде криптовалюты Monero.

Для тех кто не знает, Anna's Archive -это крупнейшая по настоящему открытая библиотека включающая материалы из LibGen и Sci-Hub. Она много где заблокирована и неизвестно кто её реально ведёт, также как и то почему она названа Anna.

В их базе более 1 петабайта, а данные можно скачать в виде датасетов очень большого объёма [2]. Для этого конкурса скачивать сотни терабайт не нужно, там датасеты поменьше, но это одна из интересных и полезных задач.

Ссылки:
[1] https://annas-archive.org/blog/all-isbns.html
[2] https://annas-archive.org/datasets

#opendata #contests #datasets
Я периодически рассказываю о внутренностях не только Dateno, но и реестра каталогов данных на которых он основан. Я начинал его делать ещё в до самого поисковика и изначально он был разделен на две части.

1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.

2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.

В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.

Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.

Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.

Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry

#dateno #opendata #datasets
В рубрике как это устроено у них каталог визуализаций 3D сканов археологических объектов, объектов культурного наследия и иных научных коллекций физических объектов MorphoSource [1]. Включает визуализацию результатов сканирования, возможность запросить сами данные и обеспечивает доступность данных, чаще опубликованных под лицензией CC-BY-NC, свободное использование для некоммерческих целей.

Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.

У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.

Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource

#opendata #datacatalogs #datasets #archeology
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.

Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.

Всего же через поиск доступен 31 миллион цифровых объектов.

У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.

Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html

#opendata #digitalheritage #datasets #japan
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.

Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].

А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.

Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/

#opendata #datarescue #datasets #usa
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉

Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.

Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]

Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂

Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0

#opendata #datasets #ipfs #torrents
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets
В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.

В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.

Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026

#opendata #datasets #cryptocurrency
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на ibegtin@opendata.am и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs