В рубрике открытых российских данных
Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.
Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.
Материалы гербария доступны под лицензией CC-BY
Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
#opendata #russia #msu #herbarium #plants
Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.
Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.
Материалы гербария доступны под лицензией CC-BY
Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
#opendata #russia #msu #herbarium #plants
🔥11⚡4✍4
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
👍13🌚4🐳1
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
🔥8👍3🙏3✍2👏1
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
🔥24💯10😢6👍3😱2❤1
Я не устаю повторять что государство не должно лезть в твою голову, в твою постель и в твой телефон (с)
Начнут со штрафов за использование VPN, а далее решат обязать предустанавливать антивирусы и иные мониторинговые программы которые должны будут стучать о наличие у тебя VPN на устройстве, потом к ним добавят ещё инструменты сильной криптографии, потом создадут реестр потенциально опасных мобильных приложений, потом оснастят патрульно-постовые службы флешками с ПО для быстрого сканирования устройств. Что бы ещё такого придумать для нашего светлого будущего?
P.S. Автор картинки Анатолий Чилик https://t.me/chilikto
#irony #privacy #russia
Начнут со штрафов за использование VPN, а далее решат обязать предустанавливать антивирусы и иные мониторинговые программы которые должны будут стучать о наличие у тебя VPN на устройстве, потом к ним добавят ещё инструменты сильной криптографии, потом создадут реестр потенциально опасных мобильных приложений, потом оснастят патрульно-постовые службы флешками с ПО для быстрого сканирования устройств. Что бы ещё такого придумать для нашего светлого будущего?
P.S. Автор картинки Анатолий Чилик https://t.me/chilikto
#irony #privacy #russia
💯33👍7❤🔥5❤3😢2🌚2
Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
✍7❤5🤣5😢2💯1
По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Дажечёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Даже
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
1👍15❤2
В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
👍5❤2✍2
Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
😁15💯3❤2👍1
По поводу запрета звонков через Telegram и WhatsApp в России с явным продвижением мессенжера MAX я, конечно, как и многие другие недоумеваю. Всё это происходит настолько грубо что кажется особенно глупым и раздражающим. Но я хочу особенно подсветить ещё один нюанс. Мессенжеры активно используются для международных звонков и если, к примеру, Вы живёте не в России, а Ваши родители здесь, то звонить по номеру телефона не через мессенжеры влетает в копеечку, почему все и перешли стремительно в те мессенжеры которые обеспечивали лучшую связь и WhatsApp и Telegram тут лидеры.
И что, с их запретом, думаете, все пойдут в MAX ? Да вот хрена с два, MAX, помимо других технических и юридических нюансов, имеет один огромный минус - там авторизация только по номерам в РФ и в Беларуси. Всё это накладывается на ранее принятое регулирование по запрету передачи сим-карт, по продлению номеров сотовых телефонов негражданами РФ и тд.
Всё это, объективно, сильно затрудняет жизнь всем кто общается с кем-либо голосом за пределами России. Только более вероятный сценарий что будут пользоваться чем угодно но не MAX'ом. Пользоваться будут тем что будет обеспечивать лучшую связь: Google Meet, Teams, Jitsi, Zoom и далее по списку. Список длинный, вариантами будут обмениваться так же как и обмениваются лучшими VPN для обхода блокировок. А вот MAX и сотовых операторов будут откровенно ненавидеть. Зачем так делать? Я лично искренне не понимаю. Вернее понимаю и вижу что сопутствующий ущерб происходящего значительно превышает любые, предполагаемые, плюсы если бы они тут могли бы быть.
#messaging #russia
И что, с их запретом, думаете, все пойдут в MAX ? Да вот хрена с два, MAX, помимо других технических и юридических нюансов, имеет один огромный минус - там авторизация только по номерам в РФ и в Беларуси. Всё это накладывается на ранее принятое регулирование по запрету передачи сим-карт, по продлению номеров сотовых телефонов негражданами РФ и тд.
Всё это, объективно, сильно затрудняет жизнь всем кто общается с кем-либо голосом за пределами России. Только более вероятный сценарий что будут пользоваться чем угодно но не MAX'ом. Пользоваться будут тем что будет обеспечивать лучшую связь: Google Meet, Teams, Jitsi, Zoom и далее по списку. Список длинный, вариантами будут обмениваться так же как и обмениваются лучшими VPN для обхода блокировок. А вот MAX и сотовых операторов будут откровенно ненавидеть. Зачем так делать? Я лично искренне не понимаю. Вернее понимаю и вижу что сопутствующий ущерб происходящего значительно превышает любые, предполагаемые, плюсы если бы они тут могли бы быть.
#messaging #russia
5💯93👍19❤13🔥5💔2🗿2❤🔥1😁1😱1🌚1💅1
И второе, на сей раз про конкретно про мессенжер MAX уже с точки зрения цифрового архивиста. Есть ключевая проблема большей части социальных сетей и коммуникационных сервисов в которых есть каналы/подписки на чьи-либо публикации в том что они плохо индексируются и архивируются. К примеру, в Интернет-архив попадает мало материалов из Facebook'а и LinkedIn, также как и в поисковый индекс Google или в Common Crawl. Компании владельцы соцсетей часто явно препятствуют или явно не предусматривают что их содержание может быть заархивировано и сохранено где-то ещё. Ну и коммерческий аспект отменить нельзя, на базе контента обучают ИИ и владельцы инфраструктуры не хотят отдавать пользовательский контент другим.
В этом смысле телеграм, в какой-то степени, уникален за счёт открытого API и того что большая часть контента индексируется извне. Например, команда ArchiveTeam архивирует большую часть общедоступного контента из Telegram с начала 2022 года. Там собрано более 5 петабайт данных. Плюс есть какое-то количество коммерческих сервисов которые, также, индексируют и архивируют публикуемое в телеграм каналах и общедоступных группах.
Для сравнения у MAX'а нет открытого, неавторизованного контура. Для того чтобы просмотреть содержимое любого канала в MAX нужно быть авторизованным и я напоминаю про то что это теперь возможно только через российские и беларусские сим-карты. А то есть материалы публикуемые в каналах в MAX архивироваться извне не будут. В лучшем случае их контент будет заархивирован какими-либо сервисами медиамониторинга.
Пока что в РФ не запретили вести каналы в Телеграм и маловероятно что кто-то из тех что сейчас MAX продвигает уйдёт туда и только туда, потому что аудитория то может туда и не прийти. Но важно понимание что это смена открытой экосистемы на закрытую,
Причём это парадокс для всех тех кто продвигает сейчас MAX на медиа площадках. Их русскоязычная аудитория не только в России, но и в пост-советских странах и в диаспоре рассеяной по миру. До тех пор пока MAX - это закрытая платформа и без возможности авторизации с номера телефонов других стран привлекательной она не будет. А разрешив там регистрацию с СИМ картами других стран автоматически обнуляются все разговоры про "безопасность". Это неразрешимый парадокс.
Более я на тему не вижу смысла писать. Технологическая конкуренция - хорошо, административная антиконкуренция - плохо.
#messaging #russia
В этом смысле телеграм, в какой-то степени, уникален за счёт открытого API и того что большая часть контента индексируется извне. Например, команда ArchiveTeam архивирует большую часть общедоступного контента из Telegram с начала 2022 года. Там собрано более 5 петабайт данных. Плюс есть какое-то количество коммерческих сервисов которые, также, индексируют и архивируют публикуемое в телеграм каналах и общедоступных группах.
Для сравнения у MAX'а нет открытого, неавторизованного контура. Для того чтобы просмотреть содержимое любого канала в MAX нужно быть авторизованным и я напоминаю про то что это теперь возможно только через российские и беларусские сим-карты. А то есть материалы публикуемые в каналах в MAX архивироваться извне не будут. В лучшем случае их контент будет заархивирован какими-либо сервисами медиамониторинга.
Пока что в РФ не запретили вести каналы в Телеграм и маловероятно что кто-то из тех что сейчас MAX продвигает уйдёт туда и только туда, потому что аудитория то может туда и не прийти. Но важно понимание что это смена открытой экосистемы на закрытую,
Причём это парадокс для всех тех кто продвигает сейчас MAX на медиа площадках. Их русскоязычная аудитория не только в России, но и в пост-советских странах и в диаспоре рассеяной по миру. До тех пор пока MAX - это закрытая платформа и без возможности авторизации с номера телефонов других стран привлекательной она не будет. А разрешив там регистрацию с СИМ картами других стран автоматически обнуляются все разговоры про "безопасность". Это неразрешимый парадокс.
Более я на тему не вижу смысла писать. Технологическая конкуренция - хорошо, административная антиконкуренция - плохо.
#messaging #russia
1👍34🔥16💯14❤6😁3
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
hubofdata.ru
Архив данных с портала data.gov.ru на 2025-09-06 - Хаб открытых данных
Архив метаданных и наборов данных с портала data.gov.ru Данные собирались 6 сентября 2025 г. Все данные собраны в формате CSV, без преобразований. Для сбора метаданных использовалось...
🔥5❤2🤔2
Читаю реакцию российской ИТ отрасли на повышение налогов и много что могу добавить, взглядом сразу с нескольких сторон.
1. С точки зрения гос-ва (читай - Пр-ва) у ИТ отрасли есть сверхдоходы. Налоговики прекрасно видят и доходы, и прибыль, и налоговые оптимизации (через льготные режимы, дробление, массовый найм самозанятых, ИТ ИПшников и тд), поэтому с их точки зрения действия по повышению налогов более чем логичны и я думаю что все решения тут принимаются не в Минцифры, а уровнем выше и Минцифры может выступать только с точки зрения защиты отрасли, но не центра принятия решений.
2. То что я слышал от российских чиновников так это то что нового оттока ИТ спецов из России они не ожидают и исходят из того что "все кто хотел уже уехал и даже возвращаются". Лично я считаю что риск отъезда квалифицированных спецов всё ещё велик, потому что им может грозить падение доходов.
3. То что под повышение налогов попадают ряд "чувствительных ИТ направлений" не приведёт к снижению налогов для всех, а только для конкретных направлений если им станет совсем больно. Особенность российского законотворчества последних пары десятилетий в принятии жесткого регулирования для всех, с точечным ослаблением так где это наиболее болезненно. Можно сказать это стандартная практика
4. Малому ИТ бизнесу будет тяжко, средний и крупный уйдёт в консолидацию. В целом у всего рынка будет существенное сокращение прибыли, доходов и тд. в том числе из-за сокращения госзаказа на ИТ, потому что де-факто крупный корп сектор уже давно приостановил инвестиции и резво переходит на инсорсинг (или уже перешел), как и часть госсектора, включая сокращение ИТ бюджетов
5. Рынок труда в ИТ останется рынком работодателей для позиций Junior-Middle уровней и останется рынком соискателя для уровней Middle+ и выше.
#thoughts #it #russia
1. С точки зрения гос-ва (читай - Пр-ва) у ИТ отрасли есть сверхдоходы. Налоговики прекрасно видят и доходы, и прибыль, и налоговые оптимизации (через льготные режимы, дробление, массовый найм самозанятых, ИТ ИПшников и тд), поэтому с их точки зрения действия по повышению налогов более чем логичны и я думаю что все решения тут принимаются не в Минцифры, а уровнем выше и Минцифры может выступать только с точки зрения защиты отрасли, но не центра принятия решений.
2. То что я слышал от российских чиновников так это то что нового оттока ИТ спецов из России они не ожидают и исходят из того что "все кто хотел уже уехал и даже возвращаются". Лично я считаю что риск отъезда квалифицированных спецов всё ещё велик, потому что им может грозить падение доходов.
3. То что под повышение налогов попадают ряд "чувствительных ИТ направлений" не приведёт к снижению налогов для всех, а только для конкретных направлений если им станет совсем больно. Особенность российского законотворчества последних пары десятилетий в принятии жесткого регулирования для всех, с точечным ослаблением так где это наиболее болезненно. Можно сказать это стандартная практика
4. Малому ИТ бизнесу будет тяжко, средний и крупный уйдёт в консолидацию. В целом у всего рынка будет существенное сокращение прибыли, доходов и тд. в том числе из-за сокращения госзаказа на ИТ, потому что де-факто крупный корп сектор уже давно приостановил инвестиции и резво переходит на инсорсинг (или уже перешел), как и часть госсектора, включая сокращение ИТ бюджетов
5. Рынок труда в ИТ останется рынком работодателей для позиций Junior-Middle уровней и останется рынком соискателя для уровней Middle+ и выше.
#thoughts #it #russia
✍9👍5❤2😢2
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
😢10👍3⚡1😱1💯1
Читаю новость о том что вице-премьер РФ Григоренко на Форуме в Тюмени заявил о том что будут доступны данные для обучения ИИ.
И как бы тут сказать повежливее:
1. Федеральный портал открытых данных архитектурно построен так что там не могут быть стандартным способом размещены данные для ИИ. Проще создать новый портал данных чем использовать его.
2. Региональных порталов открытых данных скорее нет чем есть, данные на них устарели или являются бесмыссленными мелкими административными датасетами
3. ЕИП НСУД - это забюрократизированная государственная инфраструктура не имеющая отношения к предоставлению наборов данных или больших баз данных, она про другое и сомневаюсь что её можно перестроить под что-либо ещё
4. То что представители бизнеса получат возможность размещать заявки с запросами на данные, это, как бы, вообще это было изначально и это просто сломали на новой версии data.gov.ru. Но это плохой механизм потому что дата бизнес, скажем так, испытывает очень серьёзные опасения что они озвучат свои пожелания на данные, а с них потом за них что-то потребуют если не деньгами топотом и кровью их собственными данными.
И, конечно же, дело в том что для размещения наборов данных для ИИ надо их где-то взять, а пока российскому пр-ву и законодателям лучше удаётся принуждать бизнес отдавать данные, а не убеждать внутригосударственных владельцев датасетов их публиковать в открытую или хотя бы предоставлять на понятных условиях и прозрачных процедурах.
#opendata #russia #ai #blahblahblah
И как бы тут сказать повежливее:
1. Федеральный портал открытых данных архитектурно построен так что там не могут быть стандартным способом размещены данные для ИИ. Проще создать новый портал данных чем использовать его.
2. Региональных порталов открытых данных скорее нет чем есть, данные на них устарели или являются бесмыссленными мелкими административными датасетами
3. ЕИП НСУД - это забюрократизированная государственная инфраструктура не имеющая отношения к предоставлению наборов данных или больших баз данных, она про другое и сомневаюсь что её можно перестроить под что-либо ещё
4. То что представители бизнеса получат возможность размещать заявки с запросами на данные, это, как бы, вообще это было изначально и это просто сломали на новой версии data.gov.ru. Но это плохой механизм потому что дата бизнес, скажем так, испытывает очень серьёзные опасения что они озвучат свои пожелания на данные, а с них потом за них что-то потребуют если не деньгами то
И, конечно же, дело в том что для размещения наборов данных для ИИ надо их где-то взять, а пока российскому пр-ву и законодателям лучше удаётся принуждать бизнес отдавать данные, а не убеждать внутригосударственных владельцев датасетов их публиковать в открытую или хотя бы предоставлять на понятных условиях и прозрачных процедурах.
#opendata #russia #ai #blahblahblah
🔥9❤8✍1
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.
Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.
Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.
Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это каксамоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.
#opendata #government #russia #rosstat #statistics #closeddata
Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.
Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.
Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как
#opendata #government #russia #rosstat #statistics #closeddata
publication.pravo.gov.ru
Постановление Правительства Российской Федерации от 13.11.2025 № 1784 ∙ Официальное опубликование правовых актов
Постановление Правительства Российской Федерации от 13.11.2025 № 1784
"Об утверждении Правил предоставления сведений, полученных в результате обработки первичных статистических данных и (или) административных данных при осуществлении официального статистического…
"Об утверждении Правил предоставления сведений, полученных в результате обработки первичных статистических данных и (или) административных данных при осуществлении официального статистического…
💯11😁7👍5🤔4😢3🔥1
Про свежий законопроект про Гостех - https://sozd.duma.gov.ru/bill/1076648-8
Текст не очень большой и читать его недолго, главный вывод из него в том чтодохлую лошадь не пристрелили ГосТех продолжается.
А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут
2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.
#russia #it #government
Текст не очень большой и читать его недолго, главный вывод из него в том что
А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут
2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.
#russia #it #government
✍5👍1
В рубрике плохих примеров открытых данных открытые данные на портале data.gov.ru (ничего удивительного, да?)
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи
Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.
То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.
Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.
#opendata #russia #datasets
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи
Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.
То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.
Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.
#opendata #russia #datasets
🤔6👍3😁2💯1
Свежий российский портал открытых данных платформа.дом.рф один из немногих государственных ресурсов с открытыми данными появившихся в РФ в последнее время.
Из плюсов:
- новый портал с открытыми данными
- отраслевая специализация, данные по строительной отрасли
Из минусов:
- всего 10 наборов данных в CSV формате общим объемом около 4-5 мегабайт (самый большой 1.94 МБ)
- нет API (хотя обещают)
- нет указания условий использования (что делает это не открытыми данными, а общедоступными поскольку нужны свободные лицензии).
- условия использования (пользовательское соглашение) явным образом запрещает использование в коммерческих целях без получения разрешения от Дом.РФ - запросы рассматриваются 5 дней
- нет возможности автоматически обновлять датасеты (у них нет пермалинков и нет API), автоматизированный ETL процесс не построить
В целом, учитывая что Дом.РФ как раз активно и дорого торгует аналитикой, этот портал больше пока похож на замануху для покупки данных, а не как полноценный портал открытых данных.
Но кто знает, может это только начало?
#opendata #russia #datacatalogs
Из плюсов:
- новый портал с открытыми данными
- отраслевая специализация, данные по строительной отрасли
Из минусов:
- всего 10 наборов данных в CSV формате общим объемом около 4-5 мегабайт (самый большой 1.94 МБ)
- нет API (хотя обещают)
- нет указания условий использования (что делает это не открытыми данными, а общедоступными поскольку нужны свободные лицензии).
- условия использования (пользовательское соглашение) явным образом запрещает использование в коммерческих целях без получения разрешения от Дом.РФ - запросы рассматриваются 5 дней
- нет возможности автоматически обновлять датасеты (у них нет пермалинков и нет API), автоматизированный ETL процесс не построить
В целом, учитывая что Дом.РФ как раз активно и дорого торгует аналитикой, этот портал больше пока похож на замануху для покупки данных, а не как полноценный портал открытых данных.
Но кто знает, может это только начало?
#opendata #russia #datacatalogs
👍4✍3😁2🤣1
В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
🤣3🍌1💅1