Ivan Begtin
9K subscribers
2.57K photos
5 videos
114 files
5.37K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Тем временем я постепенно, но столкнулся с ограничениями раздумывающих ИИ ассистентов с решением задач которые требуют коммерческих сервисов. Возможно они всячески избегают предлагать решения которые предполагают платить деньги каким-либо сервисам, возможно, не знают решения задач на их основе.

Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.

Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.

Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.

#opendata #thoughts #ai
👍5🔥2
В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.

Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.

Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.

#opendata #statistics #portugal
👍3
Всякие бесполезные факты о том как устроены открытые данные в мире:
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли

#opendata #facts
61❤‍🔥1
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
5🔥3
В рубрике как это устроено у них, каталоги данных по всему миру:
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие

#opendata #worldbank #gbif #datacatalogs
👍31🔥1
В рубрике как это устроено у них проект Re:Earth это ГИС система в Японии и заодно портал для публикации данных. Они же разработчики reearth-cms движка для публикации данных который они же забросили, хотя он чем то напоминал Datasette и dltHub, только с акцентом на геоданные. Но тут разработчики явно поленились или сознательно решили не документировать свой продукт.

А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.

#opendata #data #geodata #japan
👍5🔥2👏21
В рубрике как это устроено у них.

Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.

Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.

Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).

#opendata #datasets #openaccess #denmark #datatools
👍21🔥1
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.

ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного

Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов


а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.

В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.

Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.

А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.

#opendata #closeddata #russia #environment #ecology
👍103😢3👌21
Размышляю в последнее время про то нужно ли проводить день открытых данных в Москве в этом году. Мы от Инфокультуры его организовывали вживую или онлайн длительное время, но в России всё сейчас тяжко в части открытых данных, а из того что наша команда делает в этой области рассказывать можно очень ограниченно. В общем и целом есть сомнения.

День открытых данных в мире проходит в этом году между 7 и 13 марта, где-то недельные мероприятия, где-то на час-полтора онлайн митапы.

Если мой пессимизм по поводу активности сообщества необоснован, напишите, проведем онлайн мероприятие на 2-3 часа с докладами и дискуссиями от 20 до 40 минут. Если обоснован, то все будем слушать в эти дни о том как развиваются открытые данные в мире на международных митапах.

P.S. В Армении день открытых данных пройдет как и планировался вживую 13 марта, для Армении тема открытых данных по прежнему очень актуальна.

#opendata #opendataday
13😢3🙏1
Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.

Но ценных данных там давно не было, а теперь недоступны и те что были.

#opendata #closeddata #russia #moscow
😱155🕊4😁2🌚1
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.

Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.

Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.

Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.

#opendata #opengov
4🤔4👍1🔥1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata
😢20💊521👏1🕊1🌚1💯1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.

Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.

В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.

Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.

В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.

#opendata #market #data #datacatalogs
👍32
В рубрике как это устроено у них Water Data for the Nation портал данных о воде в США созданный государственной геологической службой страны.

Включает открытые API, открытые данные, визуализацию и графики мониторинга уровня и качества воды в реальном времени.

Довольно комплексная штука на самые разные аудитории.

#opendata #water #usa
4🔥2
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Я слегка выпал из злободневных событий с тем что у меня буквально за пару дней сломался ноутбук, сначала частично, а потом полностью отказала матрица.

А почти все осмысленные тексты в телеграм я пишу только с клавиатуры.

О чем хочу написать, но пока откладываю так это про ИИ и открытые данные. Это тема для большого числа дискуссий в мире и я об это тоже ранее писал, но не столь целенаправлено.

Так что как решу мелкие неурядицы, то вернусь к этой теме.

#offtopic #opendata
👍297🔥6
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
🔥4👍321
Для тех кто интересуется глобальными геодатасетами Global Canopy Heights (Глобальная высота растительного покрова) эти обновленные данные совсем недавно Meta опубликовали как открытую модель на 22ТБ и появился уже сервис chm.geocarpentry.org для выгрузки из него по странам или по конкретным блокам. Он позволяет извлечь из датасета слепки по интересующим территориям.

#opendata #datasets #geodata
👍122❤‍🔥1
В рубрике как это устроено у них NIH 3D публичный депозиторий 3D моделей от Национального института аллергии и инфекционных болезней США. 3D модели - это что-то среднее между данными и исходным кодом, ближе к данным. В этом депозитории более 15 тысяч моделей, преимущественно имеющим отношение к лекарствам, патогенам и медицинским изделиям. Опубликованы с указанием лицензий (преимущественно CC-BY, но есть и другие). С инструкциями для печати и многими другими фильтрами специфичными для 3D печати и области здравоохранения. Является одним из рекомендуемых репозиториев для публикации результатов научных работ при публикации в научных журналах.

Имеет прямое практическое применение для печати наглядных пособий для студентов и для печати деталей для многих медицинских устройств.

#opendata #3D #healthcare
👍6🔥32
Для тех кто, возможно, еще не читал, полезный материал Coding agents for data analysis от Саймона Уиллисона про применении ИИ агентов в анализе данных. Более всего полезно дата журналистам, даже аналитикам и в разного рода аналитических проектах.

Главное достоинство - все хорошо и просто объяснено, хоть переводи и курс делай по этому материалу.

#opendata #ai #dataanalysis
107👍3