Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.

Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.

Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.

И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.

Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".

Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.

Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.

Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.

Ссылки:
[1] https://tinyurl.com/data-economy-2025

#data #russia #regulation
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
Рубрика "Циничная открытость"
Сегодня, в Международный День Открытых Данных, почти через два года после закрытия после капитального ремонта реставрации переноса на платформу "Гостех" снова открылся Портал открытых данных РФ
А сейчас выступает Мария Сысоева с докладом Музейные данные: реализация просветительской функции, это будет особенно интересно для тех кто работает с данными о культурном наследии. А до этого было выступление Татьяны Максимовой о данных в генеалогии, её презентация доступна https://t.me/mskopendataday/2792 и видеозапись тоже скоро появится.

#opendatadata #opendata #culturalheritage
Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz

Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.

#opendata #dateno
Полезный обзор Smallpond [1] свежего движка для обработки больших наборов/массивных потоков данных от Deepseek.

Внутри там DuckDB и автор копается во внутренностях движка объясняя как это работает.

Из интересного - да, это альтернатива Apache Spark или Daft. В общем-то DuckDB приобретает всё большую и большую популярность, встраивается внутрь самых разных инструментов.
Вот теперь ещё и в распределенные базы данных и в распределённую обработку данных.

Ссылки:
[1] https://mehdio.substack.com/p/duckdb-goes-distributed-deepseeks

#data #datatools #deepseek #dataengineering
В рубрике как это устроено у них о том как трансформируются научные журналы в сторону работы с данными. Журнал European Journal of Taxonomy открыл портал с данными по биоразнообразию на своём сайте [1]. Портал явным образом интегрирован с проектом GBIF и другими порталами данных в этой области и теперь на нём размещены наборы данных в форме датасетов и инструментов поиска по спискам биоразнообразия.

При этом он реализован не на движке IPT который распространяет GBIF, а неким другим образом, не удивлюсь если это какая-то собственная разработка особенностью которой является представление данных в виде кластеров [2], а также возможности поиска и аналитики.

Фактически журнал переходит от работы со статьями к работе с данными и широким набором инструментов аналитики. Это принципиально иной подход к работе с их аудиторией, исследователями.

В виду специфики темы они работают со специальными форматами данных описываемых в формате MetoTaxa, это так называемый XML-first подход [3] и работа со стандартизированными данными.

Ссылки:
[1] https://europeanjournaloftaxonomy.eu/index.php/ejt/announcement/view/45
[2] https://data.europeanjournaloftaxonomy.eu/occurrence/search/?view=CLUSTERS
[3] https://www.ouvrirlascience.fr/adaptation-of-metopes-for-taxonomy-edition/

#opendata #biodiversity #biology #datacatalogs
Для тех кто в Армении в ближайшие дни, напомню что 5 и 6 марта в Армении пройдет Open Data Day, его программа доступна на сайте https://odd.opendata.am и там же можно зарегистрироваться. Это оффлайн митап где основное будет нетворкинг сообщества по открытым данным и несколько мастер-классов о том как работать с данными в примерах.

В частности, я буду 5-го рассказывать про состояние открытых данных в мире и 6-го числа проведу мастер класс по работе с культурными данными.

Напомню что ранее прошёл российский Open Data Day, полностью онлайн. Напомню что записи российского ODD доступны в ВК и YouTube.

#opendata #armenia #data #events #odd
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia
Forwarded from Open Data Armenia
Для тех кто интересуется данными по культуре Армении и армянской культуре в мире, выложен датасет с 12+ тысячами культурных объектов извлеченный из российского Госкаталога Музейного фонда (goskatalog.ru). Были выгружены объекты у которых местом создания указаны Армения, Армянская ССР или город Ереван

Датасет можно скачать в CSV формате https://data.opendata.am/dataset/goskatlog-armenia и попробовать поработать с этими данными. Сами данные госкаталога можно скачать с сайта opendata.mkrf.ru или в формате Parquet по ссылке. Желающие могут поискать другие культурные объекты, по другим значимым локациям в Армении.

Далее мы будем публиковать в нашем каталоге данных датасеты из других источников: Австралийского проекта Trove и Европейского Europeana, а также сайтов культурных учреждений разных стран.

P.S. Не все российские сайты открываются из Армении поэтому сайт Госкаталога может не открываться, файл с данными в parquet точно будет доступен.

Напоминаем что обсудить датасеты, события и просто поговорить про открытые данные можно в чате @opendataamchat

#opendata #armenia #culture
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Этот день – повод напомнить о масштабном проекте Счетной палаты – «Архив». На специальной странице нашего сайта вы можете найти более 3500 оцифрованных проверок СП с 1996 года.
С Днем архивов!

Ровно год назад мы запустили новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). За этот год мы стремились сохранить и сделать доступными исторические документы о госфинансах и госуправлении и, на наш взгляд, нам это удалось:

- количество документов на сайте Архива превысило 8 тысяч. Мы агрегировали новые источники документов: книги из личного архива А.Л. Кудрина (@AlekseiKudrin) по истории госфинансов, Архив Егора Гайдара и Национальную электронную библиотеку;

- распознали 500 сканов и подготовили 100 новых наборов данных, в основном связанных с государственными бюджетами СССР. Стремимся к созданию временных рядов;

- обогатили метаданными 1500 документов из библиотеки Минфина России и разработали три новых классификатора;

- собрали бюджеты за 1866-1990-е годы и оформили их в виде интерактивного таймлайна (https://finlibrary.ru/s/finarchive/page/timeline). Данные за 12 лет мы пока не нашли и находимся в активном поиске :D (можете нам с этим помочь);

- также в 2024 году мы активно помогали Комитету финансов Санкт-Петербурга (@comfinspb) оцифровать и опубликовать 100 тысяч образов о финансах Санкт-Петербурга за 100 лет, и надеемся, что скоро эти данные будут опубликованы (несмотря на перенос сроков);

- в этом году мы планируем больше взаимодействовать с нашими пользователями - вести телеграм-канал, организовывать конкурс для студентов и взаимодействовать с владельцами документов.
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
Общественная инициатива/сайт для отслеживания продвижения администрацией трампа инициатив из Project 2025 [1] это такая консервативная программа реформ меняющая структуру и принципы федерального пр-ва США. Там есть как очень системные, так и очень конкретные инициативы, про них можно почитать тут [2] и тут [3].

Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.

Подробнее можно почитать в блоге автора [5]

Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live

#politics #data #trump #usa
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
Полезные ссылки про данные, технологии и не только:
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.

- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette

- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач

- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.

- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.

- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.

Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/

#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess