Ivan Begtin
9.38K subscribers
2.26K photos
4 videos
106 files
4.95K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы

#opendata #geodata #datasets #maps
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.

Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.

Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров

Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их

Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr

#opendata #datasets #data #oceans #france
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.

Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.

К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.

Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300

#opendata #datasets #data #ai
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.

И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.

Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.

При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.

#opendata #culturalheritage #readings
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.

Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.

Конкретно вы Кыргызстане данные собираются с 36 метеостанций.

На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]

Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru

#opendata #openapi #api #geodata #datasets #kyrgyzstan
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках

Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.

Ссылки:
[1] https://aik.timepad.ru/event/3375051/

#opendata #openaccess
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.

На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.

При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.

Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.


Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr

#opendata #datasets #biodiversity
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.

И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.

А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)

Итого: 41,8% показателей не обновлялись с 2022 года

Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)

При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.

Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.

Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).

Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.

#opendata #data #statistics #russia
В рубрике открытых российских данных

Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.

Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.

Материалы гербария доступны под лицензией CC-BY

Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303

#opendata #russia #msu #herbarium #plants
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.

Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/

#openaccess #glam #libraries #opendata #data
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.

Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.

Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.

Там же доступны отчеты по отдельным странам.

Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.

Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.

Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.


Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html

#opengovernment #opendata #readings #oecd #reports
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных

Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk

#opendata #openaccess
В продолжение про инструмент metawarc, о котором я ранее писал и то зачем он нужен и может применяться. Вот у меня как маленькое цифровое хобби есть архивация сайтов исчезающих и иных ценных ресурсов, в том числе российских госорганов. Всё оно сфокусировано на проект Национальный цифровой архив ruarxive.org и сообщество в ТГ.

И вот несколько недель назад закончилась архивация сайта Росстата и его территориальных управлений и вот вам некоторое количество цифр которые дадут более-полную-картину.

1. Общий архив сайтов Росстата и территориальных органов - это 330ГБ WARC файлов в сжатом виде (в разжатом виде около 1.1ТБ)
2. Индекс созданный с помощью metawarc занимает 144МБ (0.04% от объёма WARC файлов). Без сбора метаданных из изображений, PDF и файлов MS Office, только записи, заголовки и ссылки. Но поскольку задач OSINT тут нет, то и остальные метаданные не собирались. Впрочем и их объёмы были бы сравнимого размера.
3. На сайтах Росстата опубликовано в общей сложности:
- 64 020 файлов XLSX
- 17 562 файлов XLS
- 14 410 файлов RAR и ZIP внутри которых могут быть ещё десятки таблицы в XLS/XLSX (а могут и не быть, не во всех)
4. Итого если даже только на основе статистики Росстата создавали когда-то портал data.gov.ru там было могли быть десятки тысяч, если не хороших, то совершенно точно используемых аналитиками и исследователями данных.
5. То как оно сейчас на сайте Росстата и его террорганов опубликовано - это, конечно, ужас-ужас. Просто ну очень плохо, нет ни единого поиска, ни унифицированных метаданных и форматов, ни единой группировки и тд. Чем Росстат занимался последнее десятилетие я даже не представляю себе, вернее представляю, но не комментирую.
6. Забегая вперед и отвечая на незаданный вопрос, нет, не у всех статслужб в мире всё так же. В таком состоянии дела обычно только у статслужб развивающихся стран.
7. Возвращаясь к содержанию сайтов Росстата. Преимущественно публикации на них - это PDF файлы и таблички в HTML. Всего около 152 тысяч PDF файлов. Даже если предположить что какая-то их часть - это приказы и иные документы без данных, но разного рода статистика составляет львиную их часть.

Архивы сайтов могут быть довольно таки ценным источником данных, но для их извлечения надо приложить существенные усилия. Особенно когда они фрагментированы так как это произошло на сайте Росстата. Однако учитывая что многие сайты закрываются и исчезают и часто от них всё что остаётся - это как раз веб-архивы, то только из этих веб архивов и можно извлекать данные и документы.

#opendata #opensource #webarchivesё