Ivan Begtin
8.99K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.

Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.

Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)

Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов

Это очень немного пользы, но хоть такая.

#opendata #datagovru #datasets #russia
🔥52🤔2
Читаю реакцию российской ИТ отрасли на повышение налогов и много что могу добавить, взглядом сразу с нескольких сторон.
1. С точки зрения гос-ва (читай - Пр-ва) у ИТ отрасли есть сверхдоходы. Налоговики прекрасно видят и доходы, и прибыль, и налоговые оптимизации (через льготные режимы, дробление, массовый найм самозанятых, ИТ ИПшников и тд), поэтому с их точки зрения действия по повышению налогов более чем логичны и я думаю что все решения тут принимаются не в Минцифры, а уровнем выше и Минцифры может выступать только с точки зрения защиты отрасли, но не центра принятия решений.
2. То что я слышал от российских чиновников так это то что нового оттока ИТ спецов из России они не ожидают и исходят из того что "все кто хотел уже уехал и даже возвращаются". Лично я считаю что риск отъезда квалифицированных спецов всё ещё велик, потому что им может грозить падение доходов.
3. То что под повышение налогов попадают ряд "чувствительных ИТ направлений" не приведёт к снижению налогов для всех, а только для конкретных направлений если им станет совсем больно. Особенность российского законотворчества последних пары десятилетий в принятии жесткого регулирования для всех, с точечным ослаблением так где это наиболее болезненно. Можно сказать это стандартная практика
4. Малому ИТ бизнесу будет тяжко, средний и крупный уйдёт в консолидацию. В целом у всего рынка будет существенное сокращение прибыли, доходов и тд. в том числе из-за сокращения госзаказа на ИТ, потому что де-факто крупный корп сектор уже давно приостановил инвестиции и резво переходит на инсорсинг (или уже перешел), как и часть госсектора, включая сокращение ИТ бюджетов
5. Рынок труда в ИТ останется рынком работодателей для позиций Junior-Middle уровней и останется рынком соискателя для уровней Middle+ и выше.


#thoughts #it #russia
9👍52😢2
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata
😢10👍31😱1💯1
Читаю новость о том что вице-премьер РФ Григоренко на Форуме в Тюмени заявил о том что будут доступны данные для обучения ИИ.

И как бы тут сказать повежливее:
1. Федеральный портал открытых данных архитектурно построен так что там не могут быть стандартным способом размещены данные для ИИ. Проще создать новый портал данных чем использовать его.
2. Региональных порталов открытых данных скорее нет чем есть, данные на них устарели или являются бесмыссленными мелкими административными датасетами
3. ЕИП НСУД - это забюрократизированная государственная инфраструктура не имеющая отношения к предоставлению наборов данных или больших баз данных, она про другое и сомневаюсь что её можно перестроить под что-либо ещё
4. То что представители бизнеса получат возможность размещать заявки с запросами на данные, это, как бы, вообще это было изначально и это просто сломали на новой версии data.gov.ru. Но это плохой механизм потому что дата бизнес, скажем так, испытывает очень серьёзные опасения что они озвучат свои пожелания на данные, а с них потом за них что-то потребуют если не деньгами то потом и кровью их собственными данными.

И, конечно же, дело в том что для размещения наборов данных для ИИ надо их где-то взять, а пока российскому пр-ву и законодателям лучше удаётся принуждать бизнес отдавать данные, а не убеждать внутригосударственных владельцев датасетов их публиковать в открытую или хотя бы предоставлять на понятных условиях и прозрачных процедурах.

#opendata #russia #ai #blahblahblah
🔥981
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.

Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.

Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.

Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как самоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.

#opendata #government #russia #rosstat #statistics #closeddata
💯11😁8👍5🤔4😢3🔥1
Про свежий законопроект про Гостех - https://sozd.duma.gov.ru/bill/1076648-8

Текст не очень большой и читать его недолго, главный вывод из него в том что дохлую лошадь не пристрелили ГосТех продолжается.

А я сделаю акцент на двух моментах:
1. Как и во всех остальных принятых в РФ законы за прошлые годы формулировка об отсутствии изменений в бюджете на 24 странице очень лукавая. Конечно же изменения будут

2. В ст. 7, ч. 1, п. 7 (стр. 14) есть формулировка, позволяющая расширить действие закона на «иных лиц, уполномоченных в соответствии с нормативными правовыми актами». Фактически закон могут в любой момент расширить на всех кто получает бюджетные деньги, к примеру обязать всех подрядчиков по госконтрактам вести разработку на сервисах Гостеха.

#russia #it #government
5👍1
В рубрике плохих примеров открытых данных открытые данные на портале data.gov.ru (ничего удивительного, да?)
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи

Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.

То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.

Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.

#opendata #russia #datasets
🤔6👍3😁2💯1
Свежий российский портал открытых данных платформа.дом.рф один из немногих государственных ресурсов с открытыми данными появившихся в РФ в последнее время.

Из плюсов:
- новый портал с открытыми данными
- отраслевая специализация, данные по строительной отрасли

Из минусов:
- всего 10 наборов данных в CSV формате общим объемом около 4-5 мегабайт (самый большой 1.94 МБ)
- нет API (хотя обещают)
- нет указания условий использования (что делает это не открытыми данными, а общедоступными поскольку нужны свободные лицензии).
- условия использования (пользовательское соглашение) явным образом запрещает использование в коммерческих целях без получения разрешения от Дом.РФ - запросы рассматриваются 5 дней
- нет возможности автоматически обновлять датасеты (у них нет пермалинков и нет API), автоматизированный ETL процесс не построить

В целом, учитывая что Дом.РФ как раз активно и дорого торгует аналитикой, этот портал больше пока похож на замануху для покупки данных, а не как полноценный портал открытых данных.

Но кто знает, может это только начало?

#opendata #russia #datacatalogs
👍43😁2🤣1
В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)

Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)

#opendata #russia
😢6🤣5💅4👏2🍌2
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.

ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного

Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов


а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.

В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.

Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.

А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.

#opendata #closeddata #russia #environment #ecology
👍103😢3👌21