Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Главархив Москвы запустил бесплатный электронный читальный зал
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
Google Cloud Blog
AlloyDB AI’s ScaNN index improves search on all kinds of data | Google Cloud Blog
Recent innovations in AlloyDB AI’s ScaNN index improve performance and quality of search over structured and unstructured data.
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Forbes.ru
Тест на антиутопию: на что похож закон о контроле иностранцев через смартфоны
С 1 сентября власти Москвы и Московской области начнут контролировать местоположение въезжающих в столичный регион мигрантов. Законопроект о проведении такого эксперимента 20 мая приняли депутаты Госдумы. Иностранцы должны будут зарегистрироваться в
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata