Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia
👍10❤‍🔥5
Forwarded from Open Data Armenia
Для тех кто интересуется данными по культуре Армении и армянской культуре в мире, выложен датасет с 12+ тысячами культурных объектов извлеченный из российского Госкаталога Музейного фонда (goskatalog.ru). Были выгружены объекты у которых местом создания указаны Армения, Армянская ССР или город Ереван

Датасет можно скачать в CSV формате https://data.opendata.am/dataset/goskatlog-armenia и попробовать поработать с этими данными. Сами данные госкаталога можно скачать с сайта opendata.mkrf.ru или в формате Parquet по ссылке. Желающие могут поискать другие культурные объекты, по другим значимым локациям в Армении.

Далее мы будем публиковать в нашем каталоге данных датасеты из других источников: Австралийского проекта Trove и Европейского Europeana, а также сайтов культурных учреждений разных стран.

P.S. Не все российские сайты открываются из Армении поэтому сайт Госкаталога может не открываться, файл с данными в parquet точно будет доступен.

Напоминаем что обсудить датасеты, события и просто поговорить про открытые данные можно в чате @opendataamchat

#opendata #armenia #culture
👍10🔥1
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
❤‍🔥4👍21
Этот день – повод напомнить о масштабном проекте Счетной палаты – «Архив». На специальной странице нашего сайта вы можете найти более 3500 оцифрованных проверок СП с 1996 года.
8
С Днем архивов!

Ровно год назад мы запустили новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). За этот год мы стремились сохранить и сделать доступными исторические документы о госфинансах и госуправлении и, на наш взгляд, нам это удалось:

- количество документов на сайте Архива превысило 8 тысяч. Мы агрегировали новые источники документов: книги из личного архива А.Л. Кудрина (@AlekseiKudrin) по истории госфинансов, Архив Егора Гайдара и Национальную электронную библиотеку;

- распознали 500 сканов и подготовили 100 новых наборов данных, в основном связанных с государственными бюджетами СССР. Стремимся к созданию временных рядов;

- обогатили метаданными 1500 документов из библиотеки Минфина России и разработали три новых классификатора;

- собрали бюджеты за 1866-1990-е годы и оформили их в виде интерактивного таймлайна (https://finlibrary.ru/s/finarchive/page/timeline). Данные за 12 лет мы пока не нашли и находимся в активном поиске :D (можете нам с этим помочь);

- также в 2024 году мы активно помогали Комитету финансов Санкт-Петербурга (@comfinspb) оцифровать и опубликовать 100 тысяч образов о финансах Санкт-Петербурга за 100 лет, и надеемся, что скоро эти данные будут опубликованы (несмотря на перенос сроков);

- в этом году мы планируем больше взаимодействовать с нашими пользователями - вести телеграм-канал, организовывать конкурс для студентов и взаимодействовать с владельцами документов.
❤‍🔥863👍3🤩3🔥2
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
6👍2
Общественная инициатива/сайт для отслеживания продвижения администрацией трампа инициатив из Project 2025 [1] это такая консервативная программа реформ меняющая структуру и принципы федерального пр-ва США. Там есть как очень системные, так и очень конкретные инициативы, про них можно почитать тут [2] и тут [3].

Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.

Подробнее можно почитать в блоге автора [5]

Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live

#politics #data #trump #usa
👍64
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
4👍2🔥1
Полезные ссылки про данные, технологии и не только:
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.

- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette

- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач

- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.

- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.

- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.

Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/

#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
👍8
Буду краток, давно хотел завести рубрику "без комментариев". И вот оно, казалось бы причём тут данные, но на чём-то же этого бота обучали.

Взято отсюда.

#nocomments #russia
😁21🔥4😱4
DuckDB выпустили UI интерфейс к базе данных [1] с открытым кодом (встроено в клиентское приложение DuckDB начиная с версии 1.2.11).

Запустить его можно командой duckdb -ui в командной строке и работать словно с тетрадками Jupyter Notebook или инструментами вроде OpenRefine.

Для тех кто сталкивается с задачами вроде Exploratory data analysis (EDA), когда вручную анализируешь данные, инструмент будет бесценен.

Сам UI сделан через расширение DuckDB компанией MotherDuck и поэтому включает авторизацию в их облачный сервис, что, впрочем, не мешает использовать его только локально.

Исходный код на C++ и JS доступен под лицензией MIT [2], при желании можно форкнуть и создать интерфейс с собственными плюшками, командной работе, авторизацией через другие сервисы и тд. А можно доработать его и сделать полноценную замену OpenRefine, к примеру.

Полезная штука по всем параметрам.

Ссылки:
[1] https://duckdb.org/2025/03/12/duckdb-ui
[2] https://github.com/duckdb/duckdb-ui

#opensource #duckdb #ui #data #datatools
🔥2011
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
👍7🤗1
SQLRooms [1] свежий инструмент с открытым кодом в жанре "BI для небогатых". Под капотом DuckDB-WASM, снаружи приложение на React. Позволяет строить разные интерактивные дашборды, с графиками и без, с AI и без. Самое главное что небольшими усилиями. Не no-code, но ближе к low-code.

У них симпатичный пример аналитики через LLM [2] и много других примеров. В живых примерах также интересно посмотреть на Flowmap City [3] и Cosmograph [4].

Для участников хакатонов будет особенно полезно, можно быстро сделать красивую визуализацию.

Открытый код и лицензия MIT.

Ссылки:
[1] https://sqlrooms.org
[2] https://sqlrooms-ai.netlify.app/
[3] https://www.flowmap.city/
[4] https://cosmograph.app/

#opensource #duckdb #data #dataviz #datatools
🔥13👍2
Для тех кто любит историю и работает с данными и цифровыми проектами ORBIS [1] интерактивная динамическая модель расчёта времени передвижения по дорогам Римской Империи.

За проектом большая работа по расчёту дистанций, оценке времени передвижения в зависимости от вида транспорта, сезона и многого другого. И всё это нанесено на карту и сделано в форме инструмента расчёта и визуализации.

Проекту много лет, более 12, его код доступен [2], правда, подозреваю что в текущей форме там всё надо было бы переделывать. Там же в репозитории есть и данные, всё под лицензией MIT.

Ссылки:
[1] https://orbis.stanford.edu
[2] https://github.com/emeeks/orbis_v2

#opendata #opensource #history #digitalhumanities #romanempire
10👍12❤‍🔥7
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.

Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.

Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].

На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.

Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.


Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports

#opendata #policy #geodata #usa #strategies #government
1❤‍🔥3🌭2
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?

Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.

Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.

Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.

P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал

#digitalpreservation #webarchives
🙏4👍2🔥2
Прекрасный инструмент по визуализации климатических расходов в США [1] с отображением и поиске по карте и по почтовому индексу (что, кстати, отличная идея) чтобы можно было найти расходы рядом со своим домом.

Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.

А также доступны код и документация [2]

Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker

#usa #spending #datasets #climate #dataviz
👍62
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund

Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/

#opendata #opensource #startups #ai #books #readings
4👍31
Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться. Работа с общедоступными данными, их сбор, обработка и автоматизация и наблюдаемость этого всего.

#vacancy #dataengineering
👍5❤‍🔥2
Ivan Begtin pinned «Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться.…»