Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Forbes.ru
Тест на антиутопию: на что похож закон о контроле иностранцев через смартфоны
С 1 сентября власти Москвы и Московской области начнут контролировать местоположение въезжающих в столичный регион мигрантов. Законопроект о проведении такого эксперимента 20 мая приняли депутаты Госдумы. Иностранцы должны будут зарегистрироваться в
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.
Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake
#data #opensource #datatools #duckdb
Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata
Для тех кто развивающимися странами интересуется может быть интересно.
Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.
А лучше всего раскрываются данные о закупках и госрасходах.
В любом случае жаль потери глобальности.
Ссылки:
[1] https://globaldatabarometer.org/
#opendata
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный навоплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.
У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).
Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.
А какие варианты будущего как контекста видите вы?
#thoughts #writings
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев
Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.
Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты
Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/
#opensource #france #opendata #sourcecode
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.
Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.
Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.
Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем
Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb
#opensource #ai #data
Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.
Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.
Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем
Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb
#opensource #ai #data