Ivan Begtin
9.01K subscribers
2.58K photos
5 videos
114 files
5.38K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.

#opensource #data #datasets #dataengineering
👍8
Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.

Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.

Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.

#opendata #standards #data #datasets
👍82🤝1
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
5🔥3
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой

#opensource #data #dataviz #datatools
👍3🔥31
В рубрике как это устроено у них проект Re:Earth это ГИС система в Японии и заодно портал для публикации данных. Они же разработчики reearth-cms движка для публикации данных который они же забросили, хотя он чем то напоминал Datasette и dltHub, только с акцентом на геоданные. Но тут разработчики явно поленились или сознательно решили не документировать свой продукт.

А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.

#opendata #data #geodata #japan
👍5🔥2👏21
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.

Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.

#opensource #data #datatools
👍5🔥4
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.

Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.

В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.

Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.

В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.

#opendata #market #data #datacatalogs
👍32
Новый подход в Data engineering - ECL (Extract Contextualize Link). Через адаптацию подхода ETL к применению ИИ.

Концепция не бесспорная, но интересная. Как верно указывают автору в комментариях она не решает проблему владения процессами, данными и так далее, но дает опору для переосмысления роли дата инженеров в среде где ИИ для обработки данных становится новой нормой.

Подробнее в тексте https://www.dataengineeringweekly.com/p/data-engineering-after-ai

#dataenginering #data
1👍85🔥3
Сегодня утром я выступал на конференции Digital Qazaqstan 2026 в Шымкенте, рассказывал про Dateno, Open Data Armenia, про открытые данные в целом, о том как страны могут развивать практики публикации данных. Презентация прошла успешно, судя по числу людей с кем я потом переговорил по итогам. Мероприятие целиком отличное и Шымкент город красивый.

А, помимо моего выступления, я немного послушал о чем говорили на сессии премьер министры стран и структурно это звучало примерно так:
- Казахстан: у нас лучшие цифровые услуги, мы делаем свой государственный LLM и SLM и наши услуги будут еще лучше
- Беларусь: У нас отличный ИТ парк и наши сельхозпроизводители роботизируются ( очень мало про цифровые услуги)
- Узбекистан: У нас есть ИТ парк, программа для стартапов и мы хотим улучшить кредитование ИТ компаний. И да, у нас отличные цифровые услуги
- Кыргызстан: У нас есть ИТ парк, разные программы развития бизнеса в ИТ и отличные цифровые услуги. А еще мы оцифровываем книжки для обучения ИИ
- Россия (Мишустин): покупайте наши импортозамещенные базовые станции и мы делаем свои LLM (показывал Алису, но не Гигачат, заметим) и покупайте наши технологии. Ничего не говорил про российские госуслуги и про Гостех

Я об этом всем чуть позже еще подумаю вслух, а пока готовлюсь к вечернему воркшопу который я буду вести на тему инвентаризации данных.

#opendata #data #kazakhstan
👍259🔥3👌21🐳1
В продолжение предыдущей моей публикации про Digital Qazaqstan 2026 и мое выступление там. У меня было примерно 10 минут выступление в котором я рассказывал том как публикуют открытые данные в мире, что изменилось за эти годы, какие государства продвинулись в этом и какие сильные и слабые стороны публикации данных есть в ЕАЭС.

Ключевое - это доступность данных для экономического развития, многие данные необходимы для принятия решений и подход заключается в публикации данных особой ценности (High Valued Datasets) и воприятии создаваемых наборов данных как дата-продуктов, а не как пассивные обременения.

Также мое выступление было про то что государства являются монополиями и не предоставляя бизнесу данные, они замыкают все инновации внутри себя и эти инновации там же и погибают ( и не рождаются )

Что хорошо - многие на конференции ко мне подошли по итогам и было много содержательных разговоров после выступления и в процессе воркшопа который я провел ближе к вечеру про инвентаризацию данных. Рассказывал, например, о том что в Казахстане есть 46 каталогов данных, но о их существовании мало кто знает внутри страны и большая часть этих каталогов - это геопорталы.

Что можно добавить - если вслушаться в речи практически всех премьер-министров которые выступали на пленарной сессии то они озвучивали позицию "государственного патернализма" (кто-то скажет социализма или госкорпоративизма), но важнее то что государства сами создают цифровые услуги и ИИ сервисы вместо развития коммерческих экосистем. Не поймите меня правильно, про поддержку стартапов говорили многие, но инфраструктура для ИТ стартапов это не только налоги, помещения и деньги, но и иные ресурсы которые включают данные. У компаний недостаточно цифрового топлива и это удорожает и усложняет их путь.

Тем кто хоть что-то говорил про цифровые продукты был российские премьер Мишустин, но делал он это не упоминая ни одной компании, а только в режиме "покупайте наши базовые станции", "покупайте наши технологии" и еще "у нас есть Алиса", но даже говоря про Алису Яндекс он не упомянул. (тут сложно не сделать ремарку о том что чья Алиса то. Она точно Яндексу принадлежит, а не российскому пр-ву?🙈)

Надо отдать должное сам форум прошел отлично, организаторы хорошо постарались и посетителей там было какое-то особенно большое количество, самые большие залы собирали ребята рассказывающие про ИИ и ML с точки зрения разработки, там стульев явно нехватало. Единственный явный организационный огрех был в том что на пленарной сессии премьер-министров был еще и представитель Кубы который говорил на испанском. К этому никто готов не был, я его худо-бедно понимал, но в целом ничего значимого он не говорил, так что и рассказать об этом нечего.

#opendata #data #kazakhstan
7🤝544🌚2
Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings
👍21
Great Data Products ещё один взгляд на открытые данные от основателей source.coop, платформы для публикации данных большого объёма, преимущественно геоданных. Автор делает экскурс в историю открытости данных, с акцентом на данные для исследователей публикуемые в США, с отсылками к первым большим изменениям в регулировании к 2003 году. Но при этом автор говорит о неопределенности слова "open" и предлагает ввести понятие "great" и акцент не на открытых датасетах, а на дата продуктах. Разница в том что дата продукты документированы, сопровождаются, имеют измеримую стоимость создания и поддержания и понятную стоимость для потребителей.

Это очень похоже на концепцию 3-й волны открытых данных (publish with the purpose) и акценте на понимании пользователей и ценности данных для пользователей.

Собственно он приводит в пример Scoop.coop, CommonCrawl, Open Supply Hub и другие специализированные НКО созданные вокруг дата продуктов и экосистемы вокруг дата продуктов.

Ко всему автор ведет и любопытный подкаст с одноименным названием.

И вдогонку к этому тексту пример проекта в виде дата продукта базы штормовых событий на основе данных NOAA с API и специализированным веб интерфейсом для их отображения.

Сама идея дата продуктов не нова, я склоняюсь что за ней однозначное будущее как переход к ценностному отношению к данным - неважно, открытым, регламентированным, для внутреннего использования.

#opendata #dataengineering #dataproducts #data
👍4🔥2
В рубрике как это устроено у них портал открытых научных данных Швеции Researchdata.se

Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.

Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.

Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.

Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).

#opendata #data #datasets #researchdata #sweden
👍6