Вдогонку к исчезновению судебной статистики. У меня есть копия статистики судебного департамента с 2005 года по 1-е полугодие 2025 года. Всего 502 Excel файла общим объёмом в 173MB
С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.
P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют
#opendata #closeddata #datasets #courts #russia
С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.
P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют
#opendata #closeddata #datasets #courts #russia
Telegram
Ivan Begtin
В рубрике закрытых данных в РФ из открытого доступа исчезли данные судебной статистики с сайта Судебного департамента. По ссылке теперь сообщение Информация временно не доступна. Доступна страница в Интернет-архиве с последней копией 7 марта 2026 года и пока…
👍16✍6🔥2😁1
Я вчера практически весь день провел на CAIGF (Central Asian Intenet Governance Forum), говорил, как всегда про данные, рассказывал немного про Dateno и Open Data Armenia, про дефицит открытых данных в странах Центральной Азии, сильном сдвиге публикации данных в сторону ИИ, в том что важно устанавливать приоритет на дата продукты и о том что вне зависимости от того открыты данные или нет, должны быть доступны метаданные и четкие условия доступа к данным разного типа, от полностью открытых (открытые данные под свободными лицензиями) до доступных ограниченному числу пользователей по четким регламентам.
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
🔥10❤6✍5👌2
Снова ожил портал открытых данных Москвы data.mos.ru и он даже регулярно обновляется. Это плюс. Никаких объяснений что с ним случилось не последовало, это минус.
#opendata #moscow #russia
#opendata #moscow #russia
😁13🔥6❤4👏2⚡1
Я тут было хотел в очередной раз "пнуть" российский портал открытых данных data.gov.ru, на предмет его бессмысленности, но посмотрел там раздел новости понял что всё, похоже он обречен. Даже нерелевантные новости Минэка там не обновляются с октября 2025 года, а релевантная вообще была только одна, о запуске портала в июле 2025.
Похоже что эта лошадь сдохла также как и предыдущая. Надо сделать архивную копию на случай если "внезапно перестанет работать". Но поскольку в России давно уже не ориентируются на рейтинги оценки цифровизации в мире, то судьба нац портала открытых данных столь незавидная
#opendata #russia #thoughts
Похоже что эта лошадь сдохла также как и предыдущая. Надо сделать архивную копию на случай если "внезапно перестанет работать". Но поскольку в России давно уже не ориентируются на рейтинги оценки цифровизации в мире, то судьба нац портала открытых данных столь незавидная
#opendata #russia #thoughts
👍14💯7✍3❤1🐳1
Где-то в начале 2026 года, точную дату сейчас сложно установить, закрылся портал проекта OneGeology https://portal.onegeology.org/ (ссылка сейчас не работает) и с анонсом что возможно летом 2026 года его передадут от Британской геологической службе аналогичной службе Японии. При этом их каталог геоданных еще доступен (1111 наборов геоданных в каталоге на базе Geonetwork). Также остается доступным сайт самого проекта с техническими документами.
OneGeology существовал с 2008 года, и не то чтобы он был ключевым, но заметным ресурсом с геоданными. Посмотрим в каком виде он возродится.
#opendata #geodata #closeddata
OneGeology существовал с 2008 года, и не то чтобы он был ключевым, но заметным ресурсом с геоданными. Посмотрим в каком виде он возродится.
#opendata #geodata #closeddata
✍4🤔3👍2
В рубрике закрытых данных в России сразу три наблюдения
С сайтов территориальных управлений Казначейства России исчезли все годовые и ежемесячные отчеты об исполнении бюджетов
Это можно посмотреть на примере сайта УФК по Москве и аналогичная ситуация на сайтах других УФК которые я проверял, примерно с десяток. Произошло это вместе с обновлением их сайтов и старые прямые ссылки на публиковавшиеся там Excel файлы. Это тем более странно потому что эти отчеты не обновлялись с 2022 года, так что можно сказать что исчезли архивные материалы которые, казалось бы, никому не мешали. Это явно произошло в 2024-2026 годах, потому что я помню что еще пару лет назад все было доступно.
С сайта Правительства РФ исчезла информация о советах и комиссиях
Профильный раздел пуст, есть только архивные данные за 2024 год (по отдельной ссылке), актуальных сведений нет. Произошло это где-то в мае 2024 года, а я, честно говоря, этот момент упустил. Честно говоря тоже странное явление потому что если цель была скрыть их состав, то можно было и не публиковать состав, а так оказывается как будто нет правительственных комиссий (а они есть).
Приказы Минцифры в разных местах
Если посмотреть на список приказов Минцифры РФ на их новом сайте и на сайте официального опубликования правовых актов то можно обнаружить что списки не бьются. Мне лично не удалось найти ни один из их приказов размещенных на publication.pravo.gov.ru в разделе на сайте Минцифры РФ хотя его пополняют. Может я плохо искал?
#closeddata #opendata #russia
С сайтов территориальных управлений Казначейства России исчезли все годовые и ежемесячные отчеты об исполнении бюджетов
Это можно посмотреть на примере сайта УФК по Москве и аналогичная ситуация на сайтах других УФК которые я проверял, примерно с десяток. Произошло это вместе с обновлением их сайтов и старые прямые ссылки на публиковавшиеся там Excel файлы. Это тем более странно потому что эти отчеты не обновлялись с 2022 года, так что можно сказать что исчезли архивные материалы которые, казалось бы, никому не мешали. Это явно произошло в 2024-2026 годах, потому что я помню что еще пару лет назад все было доступно.
С сайта Правительства РФ исчезла информация о советах и комиссиях
Профильный раздел пуст, есть только архивные данные за 2024 год (по отдельной ссылке), актуальных сведений нет. Произошло это где-то в мае 2024 года, а я, честно говоря, этот момент упустил. Честно говоря тоже странное явление потому что если цель была скрыть их состав, то можно было и не публиковать состав, а так оказывается как будто нет правительственных комиссий (а они есть).
Приказы Минцифры в разных местах
Если посмотреть на список приказов Минцифры РФ на их новом сайте и на сайте официального опубликования правовых актов то можно обнаружить что списки не бьются. Мне лично не удалось найти ни один из их приказов размещенных на publication.pravo.gov.ru в разделе на сайте Минцифры РФ хотя его пополняют. Может я плохо искал?
#closeddata #opendata #russia
👍8✍6😱4😢3🗿1
В рубрике закрытых открытых данных в России открытые данные Росморречфлота ранее размещались по ссылке opendata.morflot.ru, но домен с данными был полностью удален в начале 2022 года и описание содержания осталось только в Интернет архиве. Сейчас на сайте агентства есть только веб страница "Открытые данные", где есть описание словами что они открытые данные публикуют, но без ссылки на сами данные. Также раньше ссылки на страницу открытых данных была на главной странице и на всех страницах в футере, а теперь "запрятана поглубже" на сайте и самих данных нет, в любом случае.
А данные там были небесполезные, как минимум статистика и основные реестры.
Вообще же с сайта Росморречфлота и его подведов исчезло довольно много разных сведений, о портозаходах, о статистике грузооборота, о графиках расстановки судов в портах. Скорее всего и много всего другого, это лучше знают люди погруженные в отрасль.
#opendata #closeddata #russia
А данные там были небесполезные, как минимум статистика и основные реестры.
Вообще же с сайта Росморречфлота и его подведов исчезло довольно много разных сведений, о портозаходах, о статистике грузооборота, о графиках расстановки судов в портах. Скорее всего и много всего другого, это лучше знают люди погруженные в отрасль.
#opendata #closeddata #russia
😢10👍3⚡1❤1🗿1
Я раньше не отмечал, а сейчас заглянул на сайт International Budget Partnership и оказывается что они начали публиковать результаты обзора открытости бюджетов стран за 2025 год итеративно. Сейчас уже разместили по паре десятков стран и до 23 июня будут продолжать это делать пока 23 числа не опубликуют глобальный отчет. Ловкий маркетинговый ход, что скажешь, и подписаться на уведомления можно.
Из постсоветских стран за 2025 год уже доступны обзоры по Армении, Кыргызстану, Таджикистану, Украине.
По всем остальным можно пока посмотреть обзоры за 2023 год.
Тут важно помнить что исследования IBP, в первую очередь, про открытость для профессионалов, критерии оценки определяют соблюдения требований к раскрытию документов в рамках бюджетного процесса: проекта бюджета, изменений, финальной редакции, промежуточных отчетов, результатов аудита и так далее. А также формальный, законодательно закрепленный, надзор за бюджетом и наличие инструментов и механизмов вовлечения граждан в бюджетный процесс.
Это все важно для аналитиков бюджетных данных, для исследователей и журналистов, но это далеко не все. К примеру, обзоры IBP не покрывают публикацию данных о бюджете, детальные росписи бюджетов, отчетов об исполнении и других данных в машиночитаемой форме и тд.
И еще наблюдение что не все страны IBP охватываются, даже развитые. К примеру, я не видел их обзоров по Израилю, Швейцарии, Греции, Кипру и многим развивающимся странам.
Поэтому оценки эти интересны, но в моем понимании не полны.
#opendata #data #budgets #transparency
Из постсоветских стран за 2025 год уже доступны обзоры по Армении, Кыргызстану, Таджикистану, Украине.
По всем остальным можно пока посмотреть обзоры за 2023 год.
Тут важно помнить что исследования IBP, в первую очередь, про открытость для профессионалов, критерии оценки определяют соблюдения требований к раскрытию документов в рамках бюджетного процесса: проекта бюджета, изменений, финальной редакции, промежуточных отчетов, результатов аудита и так далее. А также формальный, законодательно закрепленный, надзор за бюджетом и наличие инструментов и механизмов вовлечения граждан в бюджетный процесс.
Это все важно для аналитиков бюджетных данных, для исследователей и журналистов, но это далеко не все. К примеру, обзоры IBP не покрывают публикацию данных о бюджете, детальные росписи бюджетов, отчетов об исполнении и других данных в машиночитаемой форме и тд.
И еще наблюдение что не все страны IBP охватываются, даже развитые. К примеру, я не видел их обзоров по Израилю, Швейцарии, Греции, Кипру и многим развивающимся странам.
Поэтому оценки эти интересны, но в моем понимании не полны.
#opendata #data #budgets #transparency
International Budget Partnership
Open Budget Survey
International Budget Partnership -
👍5🔥4✍1
Новый портал данных Всемирного банка - Data 360 пока находится в режиме бета версии, но уже есть на что посмотреть.
Можно обратить внимание:
1. Охватывает все аудитории - программистов, аналитиков, обычных пользователей.
2. Данные доступны как в виде датасетов для массовой выгрузки так и REST API
3. Есть профили у каждой страны/территории охваченными показателями
4. Для аналитиков есть каталог индикаторов и отчетов совмещенный с каталогом данных
5. Есть тематические аналитические страницы с наборами ключевых показателей.
В целом это эволюция в публикации данных ВБ, у них до сих пор есть как минимум 4 публичных интерфейсов с данными и это еще один, может быть он остальные заменит когда-нибудь.
Из особенностей:
- данные индикаторов публикуют в SDMX формате, но SDMX совместимое API не предоставляют, вместо этого свое REST API
- метаданные хранят в СУБД и отдают как JSON или как автосгенерированный PDF
Вообще крупные международные агенства и национальные статслужбы давно придерживаются подхода по предоставлению данных в унифицированном виде. Если бы Росстат в РФ имел бы подобную систему - куда проще было бы с его данными работать. Но нет, такого не ждем. А вот статведомства других стран могут взять этот пример на заметку.
Еще наблюдение в том что ВБ каждый раз разрабатывают новую систему размещения данных а не берут имеющуюся с рынка. Как это делает ОЭСР, к примеру, с .Stat Explorer.
#opendata #statistics
Можно обратить внимание:
1. Охватывает все аудитории - программистов, аналитиков, обычных пользователей.
2. Данные доступны как в виде датасетов для массовой выгрузки так и REST API
3. Есть профили у каждой страны/территории охваченными показателями
4. Для аналитиков есть каталог индикаторов и отчетов совмещенный с каталогом данных
5. Есть тематические аналитические страницы с наборами ключевых показателей.
В целом это эволюция в публикации данных ВБ, у них до сих пор есть как минимум 4 публичных интерфейсов с данными и это еще один, может быть он остальные заменит когда-нибудь.
Из особенностей:
- данные индикаторов публикуют в SDMX формате, но SDMX совместимое API не предоставляют, вместо этого свое REST API
- метаданные хранят в СУБД и отдают как JSON или как автосгенерированный PDF
Вообще крупные международные агенства и национальные статслужбы давно придерживаются подхода по предоставлению данных в унифицированном виде. Если бы Росстат в РФ имел бы подобную систему - куда проще было бы с его данными работать. Но нет, такого не ждем. А вот статведомства других стран могут взять этот пример на заметку.
Еще наблюдение в том что ВБ каждый раз разрабатывают новую систему размещения данных а не берут имеющуюся с рынка. Как это делает ОЭСР, к примеру, с .Stat Explorer.
#opendata #statistics
👍7✍4❤2
Hugging Science специальный проект Hugging Face по систематизации и доступности датасетов для исследователей в области ИИ. Почти все датасеты по естественным наукам - биология, физика, геномика, инженерия, математика, химия и медицина.
Гуманитарных наук там нет, экономики нет, да и много чего другого нет.
Выглядит интересно, надо наблюдать.
#openscience #opendata
Гуманитарных наук там нет, экономики нет, да и много чего другого нет.
Выглядит интересно, надо наблюдать.
#openscience #opendata
1✍6🤔5⚡2😢1
Новый официальный портал открытых данных Греции data.gov.gr
Из значимых изменений:
- 9524 набора данных вместо 84 в прошлой версии
- мигрировали с собственной разработки на портал на базе CKAN
- у каждого датасета теперь есть вкладка "Metadata quality" с оценкой качества метаданных
- сделали отдельный сайт с документацией https://data-gov-gr.gitbook.io/guides
- добавили каталог API (Data services)
- 601 набор данных - это данные особой ценности
Нельзя сказать что выглядит революционно (не считая числа опубликованных наборов данных), но эволюция присутствует.
P.S. Но они, конечно, жулики еще те потому что львиная часть наборов данных - это разрезанные на кусочки большие датасеты. Например, наборы данных государственного архива составляют 890 записей нарезанные по десятку и даже меньше записей в виде отдельных датасетов. Я так могу миллионы датасетов создать за полчаса😎 , так что все это опять рейтингодрочество попытки казаться, а не быть.
#opendata #datasets #greece #datacatalogs
Из значимых изменений:
- 9524 набора данных вместо 84 в прошлой версии
- мигрировали с собственной разработки на портал на базе CKAN
- у каждого датасета теперь есть вкладка "Metadata quality" с оценкой качества метаданных
- сделали отдельный сайт с документацией https://data-gov-gr.gitbook.io/guides
- добавили каталог API (Data services)
- 601 набор данных - это данные особой ценности
Нельзя сказать что выглядит революционно (не считая числа опубликованных наборов данных), но эволюция присутствует.
P.S. Но они, конечно, жулики еще те потому что львиная часть наборов данных - это разрезанные на кусочки большие датасеты. Например, наборы данных государственного архива составляют 890 записей нарезанные по десятку и даже меньше записей в виде отдельных датасетов. Я так могу миллионы датасетов создать за полчаса
#opendata #datasets #greece #datacatalogs
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍4🔥4❤🔥1❤1💯1
В рубрике как это устроено у них продолжение про открытые данные Всемирного Банка.
- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени
#opendata #datasets #datacatalogs #data #statistics
- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени
#opendata #datasets #datacatalogs #data #statistics
datacatalog.worldbank.org
World Bank Data Catalog
The Data Catalog is designed to make World Bank's development data easy to find, download, use, and share. It includes data from the World Bank's microdata...
✍3👍3🔥3😁2
Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо
#opendata #data #datasets #statistics #transport #energy #climate #aviation
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо
#opendata #data #datasets #statistics #transport #energy #climate #aviation
Ember
Home | Ember
Ember is a global energy think tank that aims to accelerate the clean energy transition with data and policy.
✍5⚡3🔥3
Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.
Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".
Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.
Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.
Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.
А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.
В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.
#opendata #data #thoughts
Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".
Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.
Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.
Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.
А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.
В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.
#opendata #data #thoughts
✍8👍6❤4😁1
Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
👍5❤4✍3⚡1
В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
👍5⚡1
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
www.federaldatafieldguide.us
The Federal Data Field Guide
🔥4👍3
Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
Substack
Dead on Arrival: The AI Dashboard Problem
Three prompts, three dashboards, and what the analytics practitioner still has to bring to the table in the age of AI-driven visual analytics.
❤3👍3
Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
GitHub
Release v1.1.2 · datenoio/internacia-db
Added
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
👍4❤3🔥2
Радует что в ответ на мой запрос про парсинг НЭБа сразу несколько откликов, ожидаемо какого-то простого решения нет и парсинг займет некоторое осмысленное время, однако сама задача привела меня к мысли о том какими сейчас могут быть конкурсы и хакатоны про открытые данные.
Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.
Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.
Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.
И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.
У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.
Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.
Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).
Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.
#opendata #thoughts
Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.
Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.
Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.
И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.
У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.
Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.
Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).
Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.
#opendata #thoughts
Telegram
Ivan Begtin
Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания,…
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания,…
👍10🔥8❤3✍2❤🔥2