Ivan Begtin
9K subscribers
2.57K photos
5 videos
114 files
5.36K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
5🔥3
В рубрике как это устроено у них, каталоги данных по всему миру:
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие

#opendata #worldbank #gbif #datacatalogs
👍31🔥1
В рубрике как это устроено у них проект Re:Earth это ГИС система в Японии и заодно портал для публикации данных. Они же разработчики reearth-cms движка для публикации данных который они же забросили, хотя он чем то напоминал Datasette и dltHub, только с акцентом на геоданные. Но тут разработчики явно поленились или сознательно решили не документировать свой продукт.

А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.

#opendata #data #geodata #japan
👍5🔥2👏21
В рубрике как это устроено у них.

Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.

Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.

Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).

#opendata #datasets #openaccess #denmark #datatools
👍21🔥1
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.

ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного

Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов


а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.

В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.

Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.

А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.

#opendata #closeddata #russia #environment #ecology
👍103😢3👌21
Размышляю в последнее время про то нужно ли проводить день открытых данных в Москве в этом году. Мы от Инфокультуры его организовывали вживую или онлайн длительное время, но в России всё сейчас тяжко в части открытых данных, а из того что наша команда делает в этой области рассказывать можно очень ограниченно. В общем и целом есть сомнения.

День открытых данных в мире проходит в этом году между 7 и 13 марта, где-то недельные мероприятия, где-то на час-полтора онлайн митапы.

Если мой пессимизм по поводу активности сообщества необоснован, напишите, проведем онлайн мероприятие на 2-3 часа с докладами и дискуссиями от 20 до 40 минут. Если обоснован, то все будем слушать в эти дни о том как развиваются открытые данные в мире на международных митапах.

P.S. В Армении день открытых данных пройдет как и планировался вживую 13 марта, для Армении тема открытых данных по прежнему очень актуальна.

#opendata #opendataday
13😢3🙏1
Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.

Но ценных данных там давно не было, а теперь недоступны и те что были.

#opendata #closeddata #russia #moscow
😱155🕊4😁2🌚1
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.

Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.

Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.

Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.

#opendata #opengov
4🤔4👍1🔥1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata
😢18💊521👏1🕊1🌚1💯1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.

Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.

В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.

Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.

В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.

#opendata #market #data #datacatalogs
👍32
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.

Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.

Довольно комплексная штука на самые разные аудитории.

#opendata #water #usa
4🔥1
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥42👍2
Я слегка выпал из злободневных событий с тем что у меня буквально за пару дней сломался ноутбук, сначала частично, а потом полностью отказала матрица.

А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.

О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.

Так что как решу мелкие неурядицы, то вернусь к этой теме.

#offtopic #opendata
👍236🔥5