Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
👍5❤4✍3⚡1
По поводу введения "платы за VPN сервисы" в России, давайте называть всё своими именами. Это выглядит как цифровой налог на бедных. Понятно что те кому это критично найдут на это деньги (или способ обойти и это) и понятно что интернет-провайдеров будут люто за это ненавидеть. А для людей с небольшими и средними доходами - это будет очень болезнено. И отличить любой другой зарубежный трафик от VPN будет практически невозможно. И богатых имеющих доступ к зарубежному трафику тоже будут ненавидеть, не так сильно как провайдеров и регуляторов, но тоже. Общий градус злости будет сильно выше
Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.
#thoughts
Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.
#thoughts
💯31❤5😢5🤝2
В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
👍5⚡1
Data Not Found любопытный доклад про прозрачность данных социальных сетей, в первую очередь для регуляторов и исследователей. Охватывает регулирование ЕС, Бразилии и Великобритании, весьма любопытное по содержанию, не очень практическое лично для меня сейчас - не вижу практического применения. Хотя один аспект важен - нет оценки возможности архивации содержания соц сетей, или же он явно недостаточен. Есть упоминание про оценку доступности данных через API, но это не одно и то же.
#data #readings
#data #readings
👍3❤1
Forwarded from Цифровой архив госфинансов и госуправления
Учет населения в Российской империи: на пути ко всеобщей переписи
Часть I. Осознание потребности
Первая и единственная перепись населения Российской империи состоялась в начале 1897 года и была подготовлена и проведена под руководством русского ученого, естествоиспытателя, экономиста и путешественника П.П. Семенова (в дальнейшей историографии известного как П.П. Семенов-Тян-Шанский). Перепись проходила путём непосредственного опроса всего населения на одну и ту же дату, а ее результаты были опубликованы в 1897—1905 годах в 89 томах (119 книг) под общим заглавием «Первая всеобщая перепись населения Российской империи 1897 года».
Необходимость переписи назрела в России давно — не только для целей воинского и налогового учета. Как отмечает Временник Центрального статистического комитета МВД Российской империи в 1890 году*,
собирание подобных сведений приобретает еще более важное значение в таком государстве, как Россия, представляющем крайнее разнообразие географических и экономических условий и заключающем в пределах своих множество этнографических элементов, не утративших еще ни лингвистических, ни вероисповедных, ни бытовых отличий.
Подготовка переписи началась в 1874 году в Комиссии для выработки правил учета населения под председательством А.К. Гирса, созданной при министерстве финансов в бытность министром М.Х. Рейтерна.
Перед комиссией стояла задача*
составить предположения о мерах, какие могут быть приняты для ведения на будущее время правильного счета лиц, подлежащих воинской повинности, и, если будет признано необходимым произвести для сего общую поголовную перепись всего населения, то определить, какими способами и каким порядком она должна быть произведена.
Кроме того, в поле зрения комиссии находилась и грядущая податная реформа: при проведении переписи следовало собрать сведения для осуществления реформы и определить, какие данные могут быть полезны для финансовых задач.
* Цитируется по изданию Центрального статистического комитета Министерства внутренних дел «Очерк развития вопроса о всеобщей народной переписи в России», 1890 г.
#статистика #перепись #история #книга
Часть I. Осознание потребности
Первая и единственная перепись населения Российской империи состоялась в начале 1897 года и была подготовлена и проведена под руководством русского ученого, естествоиспытателя, экономиста и путешественника П.П. Семенова (в дальнейшей историографии известного как П.П. Семенов-Тян-Шанский). Перепись проходила путём непосредственного опроса всего населения на одну и ту же дату, а ее результаты были опубликованы в 1897—1905 годах в 89 томах (119 книг) под общим заглавием «Первая всеобщая перепись населения Российской империи 1897 года».
Необходимость переписи назрела в России давно — не только для целей воинского и налогового учета. Как отмечает Временник Центрального статистического комитета МВД Российской империи в 1890 году*,
собирание подобных сведений приобретает еще более важное значение в таком государстве, как Россия, представляющем крайнее разнообразие географических и экономических условий и заключающем в пределах своих множество этнографических элементов, не утративших еще ни лингвистических, ни вероисповедных, ни бытовых отличий.
Подготовка переписи началась в 1874 году в Комиссии для выработки правил учета населения под председательством А.К. Гирса, созданной при министерстве финансов в бытность министром М.Х. Рейтерна.
Перед комиссией стояла задача*
составить предположения о мерах, какие могут быть приняты для ведения на будущее время правильного счета лиц, подлежащих воинской повинности, и, если будет признано необходимым произвести для сего общую поголовную перепись всего населения, то определить, какими способами и каким порядком она должна быть произведена.
Кроме того, в поле зрения комиссии находилась и грядущая податная реформа: при проведении переписи следовало собрать сведения для осуществления реформы и определить, какие данные могут быть полезны для финансовых задач.
* Цитируется по изданию Центрального статистического комитета Министерства внутренних дел «Очерк развития вопроса о всеобщей народной переписи в России», 1890 г.
#статистика #перепись #история #книга
❤7⚡5
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
www.federaldatafieldguide.us
The Federal Data Field Guide
👍3🔥3
Даже не знаю как это прокомментировать, наверное что как бы российские власти не пошли тем же путем. И сейчас ИИ специалистов очень сложно найти, а вообще никого в стране не останется(
#ai #china #regulation
#ai #china #regulation
🌚5🔥3
Обзор протокола MCP от NSA (Агентство национальной безопасности США). Если коротко то так
Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.
#readings #security #ai
Хотя MCP действительно является многообещающим базовым уровнем для агентных систем, его текущее
состояние безопасности остается неоднородным и в значительной степени зависит от дисциплины реализации, а не от гарантий протокола.
Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.
#readings #security #ai
1✍6❤2👍1
Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
Substack
Dead on Arrival: The AI Dashboard Problem
Three prompts, three dashboards, and what the analytics practitioner still has to bring to the table in the age of AI-driven visual analytics.
❤2👍2