Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.89K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Главархив Москвы запустил бесплатный электронный читальный зал

На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).

Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).

Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом


Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/

#opensource #data #datatools
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.

У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.

Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.

Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/

#opensource #microsoft
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.

Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства

Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.

С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.

#opendata #hyperlocal #hackathons #data #datasets
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony

Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.

Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.

#readings #writings #privacy
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.

То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.

Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.

#privacy #telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759

Интеграция там совсем не лайт, а вполне себе углублённая.

#ai #telegram #privacy
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.

Будет очень интересен тем кто изучает рекомендательные системы.

Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda

#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.

Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.

Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake

#data #opensource #datatools #duckdb
Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).

Для тех кто развивающимися странами интересуется может быть интересно.

Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.

А лучше всего раскрываются данные о закупках и госрасходах.

В любом случае жаль потери глобальности.

Ссылки:
[1] https://globaldatabarometer.org/

#opendata