Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто в Армении в ближайшие дни, напомню что 5 и 6 марта в Армении пройдет Open Data Day, его программа доступна на сайте https://odd.opendata.am и там же можно зарегистрироваться. Это оффлайн митап где основное будет нетворкинг сообщества по открытым данным и несколько мастер-классов о том как работать с данными в примерах.

В частности, я буду 5-го рассказывать про состояние открытых данных в мире и 6-го числа проведу мастер класс по работе с культурными данными.

Напомню что ранее прошёл российский Open Data Day, полностью онлайн. Напомню что записи российского ODD доступны в ВК и YouTube.

#opendata #armenia #data #events #odd
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia
Forwarded from Open Data Armenia
Для тех кто интересуется данными по культуре Армении и армянской культуре в мире, выложен датасет с 12+ тысячами культурных объектов извлеченный из российского Госкаталога Музейного фонда (goskatalog.ru). Были выгружены объекты у которых местом создания указаны Армения, Армянская ССР или город Ереван

Датасет можно скачать в CSV формате https://data.opendata.am/dataset/goskatlog-armenia и попробовать поработать с этими данными. Сами данные госкаталога можно скачать с сайта opendata.mkrf.ru или в формате Parquet по ссылке. Желающие могут поискать другие культурные объекты, по другим значимым локациям в Армении.

Далее мы будем публиковать в нашем каталоге данных датасеты из других источников: Австралийского проекта Trove и Европейского Europeana, а также сайтов культурных учреждений разных стран.

P.S. Не все российские сайты открываются из Армении поэтому сайт Госкаталога может не открываться, файл с данными в parquet точно будет доступен.

Напоминаем что обсудить датасеты, события и просто поговорить про открытые данные можно в чате @opendataamchat

#opendata #armenia #culture
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Этот день – повод напомнить о масштабном проекте Счетной палаты – «Архив». На специальной странице нашего сайта вы можете найти более 3500 оцифрованных проверок СП с 1996 года.
С Днем архивов!

Ровно год назад мы запустили новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). За этот год мы стремились сохранить и сделать доступными исторические документы о госфинансах и госуправлении и, на наш взгляд, нам это удалось:

- количество документов на сайте Архива превысило 8 тысяч. Мы агрегировали новые источники документов: книги из личного архива А.Л. Кудрина (@AlekseiKudrin) по истории госфинансов, Архив Егора Гайдара и Национальную электронную библиотеку;

- распознали 500 сканов и подготовили 100 новых наборов данных, в основном связанных с государственными бюджетами СССР. Стремимся к созданию временных рядов;

- обогатили метаданными 1500 документов из библиотеки Минфина России и разработали три новых классификатора;

- собрали бюджеты за 1866-1990-е годы и оформили их в виде интерактивного таймлайна (https://finlibrary.ru/s/finarchive/page/timeline). Данные за 12 лет мы пока не нашли и находимся в активном поиске :D (можете нам с этим помочь);

- также в 2024 году мы активно помогали Комитету финансов Санкт-Петербурга (@comfinspb) оцифровать и опубликовать 100 тысяч образов о финансах Санкт-Петербурга за 100 лет, и надеемся, что скоро эти данные будут опубликованы (несмотря на перенос сроков);

- в этом году мы планируем больше взаимодействовать с нашими пользователями - вести телеграм-канал, организовывать конкурс для студентов и взаимодействовать с владельцами документов.
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
Общественная инициатива/сайт для отслеживания продвижения администрацией трампа инициатив из Project 2025 [1] это такая консервативная программа реформ меняющая структуру и принципы федерального пр-ва США. Там есть как очень системные, так и очень конкретные инициативы, про них можно почитать тут [2] и тут [3].

Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.

Подробнее можно почитать в блоге автора [5]

Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live

#politics #data #trump #usa
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
Полезные ссылки про данные, технологии и не только:
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.

- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette

- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач

- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.

- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.

- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.

Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/

#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
Буду краток, давно хотел завести рубрику "без комментариев". И вот оно, казалось бы причём тут данные, но на чём-то же этого бота обучали.

Взято отсюда.

#nocomments #russia
DuckDB выпустили UI интерфейс к базе данных [1] с открытым кодом (встроено в клиентское приложение DuckDB начиная с версии 1.2.11).

Запустить его можно командой duckdb -ui в командной строке и работать словно с тетрадками Jupyter Notebook или инструментами вроде OpenRefine.

Для тех кто сталкивается с задачами вроде Exploratory data analysis (EDA), когда вручную анализируешь данные, инструмент будет бесценен.

Сам UI сделан через расширение DuckDB компанией MotherDuck и поэтому включает авторизацию в их облачный сервис, что, впрочем, не мешает использовать его только локально.

Исходный код на C++ и JS доступен под лицензией MIT [2], при желании можно форкнуть и создать интерфейс с собственными плюшками, командной работе, авторизацией через другие сервисы и тд. А можно доработать его и сделать полноценную замену OpenRefine, к примеру.

Полезная штука по всем параметрам.

Ссылки:
[1] https://duckdb.org/2025/03/12/duckdb-ui
[2] https://github.com/duckdb/duckdb-ui

#opensource #duckdb #ui #data #datatools
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
SQLRooms [1] свежий инструмент с открытым кодом в жанре "BI для небогатых". Под капотом DuckDB-WASM, снаружи приложение на React. Позволяет строить разные интерактивные дашборды, с графиками и без, с AI и без. Самое главное что небольшими усилиями. Не no-code, но ближе к low-code.

У них симпатичный пример аналитики через LLM [2] и много других примеров. В живых примерах также интересно посмотреть на Flowmap City [3] и Cosmograph [4].

Для участников хакатонов будет особенно полезно, можно быстро сделать красивую визуализацию.

Открытый код и лицензия MIT.

Ссылки:
[1] https://sqlrooms.org
[2] https://sqlrooms-ai.netlify.app/
[3] https://www.flowmap.city/
[4] https://cosmograph.app/

#opensource #duckdb #data #dataviz #datatools
Для тех кто любит историю и работает с данными и цифровыми проектами ORBIS [1] интерактивная динамическая модель расчёта времени передвижения по дорогам Римской Империи.

За проектом большая работа по расчёту дистанций, оценке времени передвижения в зависимости от вида транспорта, сезона и многого другого. И всё это нанесено на карту и сделано в форме инструмента расчёта и визуализации.

Проекту много лет, более 12, его код доступен [2], правда, подозреваю что в текущей форме там всё надо было бы переделывать. Там же в репозитории есть и данные, всё под лицензией MIT.

Ссылки:
[1] https://orbis.stanford.edu
[2] https://github.com/emeeks/orbis_v2

#opendata #opensource #history #digitalhumanities #romanempire
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.

Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.

Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].

На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.

Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.


Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports

#opendata #policy #geodata #usa #strategies #government
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?

Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.

Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.

Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.

P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал

#digitalpreservation #webarchives
Прекрасный инструмент по визуализации климатических расходов в США [1] с отображением и поиске по карте и по почтовому индексу (что, кстати, отличная идея) чтобы можно было найти расходы рядом со своим домом.

Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.

А также доступны код и документация [2]

Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker

#usa #spending #datasets #climate #dataviz
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund

Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/

#opendata #opensource #startups #ai #books #readings