Ivan Begtin – Telegram

Ivan Begtin

9.02K subscribers

2.64K photos

5 videos

114 files

5.46K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.02K subscribers

В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.

Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.

Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.

#opendata #usa #energy #datacatalogs #datasets

⚡6👍3❤1🔥1

1.53K viewsIvan Begtin, 19:28

Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.

Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.

Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.

#opendata #standards #data #datasets

👍8❤2🤝1

1.3K viewsIvan Begtin, 16:21

В рубрике как это устроено у них.

Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.

Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.

Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).

#opendata #datasets #openaccess #denmark #datatools

👍2✍1🔥1

1.44K viewsIvan Begtin, 18:15

Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata

😢21💊5❤2✍1👏1🕊1🌚1💯1

2.1K viewsIvan Begtin, 15:26

Для тех кто интересуется глобальными геодатасетами Global Canopy Heights (Глобальная высота растительного покрова) эти обновленные данные совсем недавно Meta опубликовали как открытую модель на 22ТБ и появился уже сервис chm.geocarpentry.org для выгрузки из него по странам или по конкретным блокам. Он позволяет извлечь из датасета слепки по интересующим территориям.

#opendata #datasets #geodata

👍12❤2❤‍🔥1

1.98K viewsIvan Begtin, edited 07:27

Ещё один любопытный проект про данные в эпоху ИИ ассистентов Legal Data Hunter в виде базы нормативно-правовых и судебных документов со всего мира. Явно пэт-проект одного разработчика, бизнес идея если и прослеживается, то в ней есть сомнения, автор явно хочет продавать API к глобальной базе законов и судебных решений чтобы кто угодно мог подключать их к своим ИИ ассистентам. Открытые данные там тоже есть - это каталог источников юридических документов legal-sources организованный на удивление похоже с тем как я создавал реестр Dateno, в виде большой коллекции YAML файлов по каждому источнику.

Весь проект с конвеерами сбора данных, сбором источников и тд. автор писал с помощью ИИ. Написал он всё это в очень короткий срок и охватывает уже источники более чем по 40 странам (остальные в статусе "запланировано").

Порог входа для создания таких проектов теперь резко сократился, можно сделать в одиночку за недели то что команда разработчиков раньше делала бы полгода или дольше.

Конкретно судьба этого проекта не так интересна, а вот руках более продвинутой LegalTech команды можно создавать базы НПА и судебных решений другого уровня.

#opendata #datasets #ai

❤4✍2🤔2

1.78K viewsIvan Begtin, 12:59

Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings

ACM Computing Surveys

Dataset Discovery and Exploration: A Survey | ACM Computing Surveys

Data scientists are tasked with obtaining insights from data. However, suitable data
is often not immediately at hand, and there may be many potentially relevant datasets
in a data lake or in open data repositories. As a result, data discovery and ...

👍2❤1

1.42K viewsIvan Begtin, 06:46

В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)

Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.

И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.

P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.

#opendata #geodata #datasets

STAC: SpatioTemporal Asset Catalogs

The STAC specification is a common language to describe geospatial information, so it can more easily be worked with, indexed, and discovered.

👍3✍2❤1🔥1🤝1

2.22K viewsIvan Begtin, 16:36

Я ранее уже писал про Digital Public Infrastructure, то что государства создают цифровую инфраструктуру которую можно рассматривать как одну из форм общественной инфраструктуры и общественного блага, примерно как дороги, или общественные здания и тому подобное.

Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.

Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.

#opendata #dpi #datasets #government

Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее…

👍6❤1

1.55K viewsIvan Begtin, 12:52

В рубрике как это устроено у них портал открытых научных данных Швеции Researchdata.se

Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.

Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.

Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.

Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).

#opendata #data #datasets #researchdata #sweden

👍7✍1⚡1

1.51K viewsIvan Begtin, 14:47

Вдогонку к исчезновению судебной статистики. У меня есть копия статистики судебного департамента с 2005 года по 1-е полугодие 2025 года. Всего 502 Excel файла общим объёмом в 173MB

С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.

P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют

#opendata #closeddata #datasets #courts #russia

В рубрике закрытых данных в РФ из открытого доступа исчезли данные судебной статистики с сайта Судебного департамента. По ссылке теперь сообщение Информация временно не доступна. Доступна страница в Интернет-архиве с последней копией 7 марта 2026 года и пока…

👍16✍6🔥2😁1

1.77K viewsIvan Begtin, edited 16:44

Новый официальный портал открытых данных Греции data.gov.gr

Из значимых изменений:
- 9524 набора данных вместо 84 в прошлой версии
- мигрировали с собственной разработки на портал на базе CKAN
- у каждого датасета теперь есть вкладка "Metadata quality" с оценкой качества метаданных
- сделали отдельный сайт с документацией https://data-gov-gr.gitbook.io/guides
- добавили каталог API (Data services)
- 601 набор данных - это данные особой ценности

Нельзя сказать что выглядит революционно (не считая числа опубликованных наборов данных), но эволюция присутствует.

P.S. Но они, конечно, жулики еще те потому что львиная часть наборов данных - это разрезанные на кусочки большие датасеты. Например, наборы данных государственного архива составляют 890 записей нарезанные по десятку и даже меньше записей в виде отдельных датасетов. Я так могу миллионы датасетов создать за полчаса 😎, так что все это опять ~~рейтингодрочество~~ попытки казаться, а не быть.

#opendata #datasets #greece #datacatalogs

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8👍4🔥4❤‍🔥1❤1💯1

1.28K viewsIvan Begtin, edited 12:16

В рубрике как это устроено у них продолжение про открытые данные Всемирного Банка.

- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени

#opendata #datasets #datacatalogs #data #statistics

datacatalog.worldbank.org

World Bank Data Catalog

The Data Catalog is designed to make World Bank's development data easy to find, download, use, and share. It includes data from the World Bank's microdata...

✍3👍3🔥3😁2

1.24K viewsIvan Begtin, 07:24

Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо

#opendata #data #datasets #statistics #transport #energy #climate #aviation

Ember is a global energy think tank that aims to accelerate the clean energy transition with data and policy.

✍5⚡3🔥3

1.34K viewsIvan Begtin, 12:46

Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).

Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI

Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.

Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).

Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.

Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.

Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.

#opendata #datasets #data #datacatalogs #statistics

👍5❤4✍3⚡1

1.39K viewsIvan Begtin, 10:05

В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.

Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.

Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.

Наборов данных там немного, так что массовым явлением называть это нельзя.

Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.

Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.

#opendata #datacatalogs #datasets #data

👍5⚡1

1.35K viewsIvan Begtin, 16:58

Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.

#opendata #datasets #readings #ai

Dead on Arrival: The AI Dashboard Problem

Three prompts, three dashboards, and what the analytics practitioner still has to bring to the table in the age of AI-driven visual analytics.

❤4👍4

1.3K viewsIvan Begtin, 06:09

Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)

В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.

Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.

Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.

Если найдете там ошибки или будет чем дополнить - пишите сразу мне.

#opendata #datasets #opensource

Для всех кто занимается меж

Release v1.1.2 · datenoio/internacia-db

Added

International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...

👍5❤4🔥3

1.2K viewsIvan Begtin, 08:27

Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru

Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.

Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.

Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.

Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.

Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.

Сами файлы выкачивать не нужно!

Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.

Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.

#opencall #datasets

🔥11👍6❤‍🔥5❤1🤝1

1.69K viewsIvan Begtin, edited 12:09

В рубрике интересных каталогов открытых данных коллекция датасетов в проекте Mozilla Data Collective. Включает множество датасетов по самым разным темам, но основная тема - это языковое разнообразие и каталог включает множество наборов данных именно по языкам, включая редкие или не самые популярные. Например, датасеты по армянскому языку

Из плюсов:
- датасетов много и они полезны
- большая часть под свободными лицензиями или почти свободными вроде CC-ND/CC-NC
- Mozilla устоявшаяся структура, есть ощущение что каталог не сиюминутен

Из минусов:
- доступ требует регистрации и это не открытые данные, для выгрузки или доступа через API даже при свободных лицензиях надо согласится вручную со всеми условиями (не только лицензиями)
- сам каталог является самостоятельной поделкой, не стандартизированный поэтому многие функции вроде фильтрации сделаны так себе, непродуманно
- то что там называется API - это API на выкачку файлов, а не на доступ к данным через API.

В целом не вижу чем он удобнее чем тот же Hugging Face, в работе с датасетами для ИИ, но помнить о нем немаловажно

#opendata #datasets #datacatalogs

👍4

942 viewsIvan Begtin, 14:14