Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его текущего состояния:
1. 29 гигабайт - это общий объём данных в федеральном портале открытых данных data.gov.ru. Большая часть этих данных несжаты, после сжатия их объём составит около 15-20 гигабайт, а может быть и меньше, сжатие этого архива ещё не закончилось.
2. Из них 6.8 гигабайт - это однократный слепок данных в ZIP архиве из системы ФИАС не обновлявшийся с октября 2019 года [2]. Вернее ссылка на этот слепок на сайте ФНС [3].
3. Всего на 5 крупнейших наборов данных приходится 50% хранимого объёма. Это данные ФИАС, вакансий и юр. лиц Роструда и сведения о малом и среднем бизнесе с сайта ФНС.
4. 3839 наборов данных имеют размер менее 1 килобайта. Это 14.5% всех наборов данных, всех уровней власти. Федерального, регионального и муниципального.
5. На самом деле даже текущие цифры являются завышенными потому что многие ссылки указывают на внешние сайты и протухли из-за реформы органов власти. Наглядный пример, данные ФСТ РФ присоединённой к ФАС РФ. Набор данных "Информация об обращениях граждан" [4] указывает на сайт fstrf.ru которые редиректит на рекламу на meta.ru.
6. Аналогично наборы данных со многих сайтов были перенесены или удалены, метаданные на data.gov.ru не обновлялись. Так не работает ссылки на все наборы данных ФТС (Таможенной службы), например тут [5].
Для сравнения:
1. 950+ наборов данных из портала data.mos.ru - это 17 гигабайт несжатых данных. Частично эти наборы импортированы в data.gov.ru, но лишь частично.
2. Данные системы ЕМИСС (fedstat.ru) это 3.4 гигабайт несжатых XML файлов, данных неполными в выгрузке на сайте и проиндексированных в data.gov.ru. Если собрать их же в полных Excel файлах, экспортируя через веб интерфейс, то это около 24 ГБ
3. В системе budget.gov.ru данных по госфинансам 31 ГБ в сжатом виде. Если их распаковать то это около 200 ГБ и с оговоркой что это далеко не все данные, поскольку ряд крупнейших датасетов мы не скачивали, это слишком долго через их API.
4. 9200+ наборов данных из системы ЕСИМО (портал о мировом океане) - это 10 ГБ данных в несжатом виде. Их никогда не было на портале data.gov.ru
Это не полный список, только самое очевидное.
Все сравнения не в пользу федерального портала открытых данных. И это с оговоркой только количественного, не качественного сравнения. Если сравнивать федеральный портал по качеству документированности данных, удобства доступа, форматам и метаданным и тд. с другими порталами, то федеральный портал оказывается бесполезен. Он не выполняет функции поисковика по данным размещённых в других порталах, как минимум к особо крупным и ценным наборам данных. Технологически data.gov.ru также сильно отстал, и от того что делают зарубежом, и от лучших российских практик. Многие региональные и ведомственные порталы данных устроены куда лучше и профессиональнее.
Сейчас я изучаю можно ли хоть что-то из data.gov.ru автоматически загрузить в DataCrafter [6] или лучше работать только с первоисточниками.
Архив данных этого и других порталов данных мы также сохраняем в рамках Национального цифрового архива [7] и он будет сохранён и доступен для выгрузки.
Если есть желающие изучать все скачанные данные уже сейчас, я выложу слепок данных с портала для выгрузки и объясню как данные выгружались и как с ними можно работать. Напишите если он Вам нужен, я пришлю ссылки пока индивидуально, а как только поместим в архивное хранилище то будет доступно всем.
Ссылки:
[1] https://data.gov.ru
[2] https://data.gov.ru/opendata/7707329152-fias
[3] https://fias.nalog.ru
[4] https://data.gov.ru/opendata/7705513068-CitizensRequest
[5] https://data.gov.ru/opendata/7730176610-p5statimpvajneytov
[6] https://data.apicrafter.ru
#opendata #dataportals #russia #datasets #datagovru
1. 29 гигабайт - это общий объём данных в федеральном портале открытых данных data.gov.ru. Большая часть этих данных несжаты, после сжатия их объём составит около 15-20 гигабайт, а может быть и меньше, сжатие этого архива ещё не закончилось.
2. Из них 6.8 гигабайт - это однократный слепок данных в ZIP архиве из системы ФИАС не обновлявшийся с октября 2019 года [2]. Вернее ссылка на этот слепок на сайте ФНС [3].
3. Всего на 5 крупнейших наборов данных приходится 50% хранимого объёма. Это данные ФИАС, вакансий и юр. лиц Роструда и сведения о малом и среднем бизнесе с сайта ФНС.
4. 3839 наборов данных имеют размер менее 1 килобайта. Это 14.5% всех наборов данных, всех уровней власти. Федерального, регионального и муниципального.
5. На самом деле даже текущие цифры являются завышенными потому что многие ссылки указывают на внешние сайты и протухли из-за реформы органов власти. Наглядный пример, данные ФСТ РФ присоединённой к ФАС РФ. Набор данных "Информация об обращениях граждан" [4] указывает на сайт fstrf.ru которые редиректит на рекламу на meta.ru.
6. Аналогично наборы данных со многих сайтов были перенесены или удалены, метаданные на data.gov.ru не обновлялись. Так не работает ссылки на все наборы данных ФТС (Таможенной службы), например тут [5].
Для сравнения:
1. 950+ наборов данных из портала data.mos.ru - это 17 гигабайт несжатых данных. Частично эти наборы импортированы в data.gov.ru, но лишь частично.
2. Данные системы ЕМИСС (fedstat.ru) это 3.4 гигабайт несжатых XML файлов, данных неполными в выгрузке на сайте и проиндексированных в data.gov.ru. Если собрать их же в полных Excel файлах, экспортируя через веб интерфейс, то это около 24 ГБ
3. В системе budget.gov.ru данных по госфинансам 31 ГБ в сжатом виде. Если их распаковать то это около 200 ГБ и с оговоркой что это далеко не все данные, поскольку ряд крупнейших датасетов мы не скачивали, это слишком долго через их API.
4. 9200+ наборов данных из системы ЕСИМО (портал о мировом океане) - это 10 ГБ данных в несжатом виде. Их никогда не было на портале data.gov.ru
Это не полный список, только самое очевидное.
Все сравнения не в пользу федерального портала открытых данных. И это с оговоркой только количественного, не качественного сравнения. Если сравнивать федеральный портал по качеству документированности данных, удобства доступа, форматам и метаданным и тд. с другими порталами, то федеральный портал оказывается бесполезен. Он не выполняет функции поисковика по данным размещённых в других порталах, как минимум к особо крупным и ценным наборам данных. Технологически data.gov.ru также сильно отстал, и от того что делают зарубежом, и от лучших российских практик. Многие региональные и ведомственные порталы данных устроены куда лучше и профессиональнее.
Сейчас я изучаю можно ли хоть что-то из data.gov.ru автоматически загрузить в DataCrafter [6] или лучше работать только с первоисточниками.
Архив данных этого и других порталов данных мы также сохраняем в рамках Национального цифрового архива [7] и он будет сохранён и доступен для выгрузки.
Если есть желающие изучать все скачанные данные уже сейчас, я выложу слепок данных с портала для выгрузки и объясню как данные выгружались и как с ними можно работать. Напишите если он Вам нужен, я пришлю ссылки пока индивидуально, а как только поместим в архивное хранилище то будет доступно всем.
Ссылки:
[1] https://data.gov.ru
[2] https://data.gov.ru/opendata/7707329152-fias
[3] https://fias.nalog.ru
[4] https://data.gov.ru/opendata/7705513068-CitizensRequest
[5] https://data.gov.ru/opendata/7730176610-p5statimpvajneytov
[6] https://data.apicrafter.ru
#opendata #dataportals #russia #datasets #datagovru
👍2🔥1🤯1
Для тех кто работал/работает с данными в России и не могут найти данные портала федерального портала data.gov.ru поскольку он недоступен напомню что у нас есть полная архивная копия данных собранное на 2 февраля 2022 года [1]. 13ГБ архив и 29ГБ после распаковки. Не бог весть какие ценные там данные, но могут быть полезны тем кому они могут быть полезны.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #data #datagovru #russia
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #data #datagovru #russia
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
👍11🔥3
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
15 июля откроется обновленный Портал открытых данных. Что можно сказать о новой версии портала уже сегодня?
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли подвидом предлогом инвентаризации данных, от идеи проведения которой Минэк вскоре отказался,
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли под
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
✍4💯4
Для тех кто ищет данные по РФ, на хабе открытых данных опубликован слепок всех данных с data.gov.ru слепок включает все метаданных датасетов и копию всех данных в CSV формате, в едином архиве.
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
Данных там немного, всего 1ГБ в распакованном виде, с практической точки зрения оно, по прежнему, довольно таки бесполезно. Всё что я думаю про этот портал я уже неоднократно писал, но если, всё таки, кому-то эти данные понадобятся, то их слепок останется.
Важно помнить что:
- многие CSV файлы в разных кодировках, без заголовков, с разными разделителями.
- много мелких датасетов не больше чем в 10 строк
- самые большие датасеты не превышают 47МБ (очень мало!)
Лично я пока нашёл лишь два способа применения этих данных:
1. Тренировка алгоритмов идентификации семантических типов данных
2. Проверка функций и инструментов распознавания битых CSV файлов
Это очень немного пользы, но хоть такая.
#opendata #datagovru #datasets #russia
hubofdata.ru
Архив данных с портала data.gov.ru на 2025-09-06 - Хаб открытых данных
Архив метаданных и наборов данных с портала data.gov.ru Данные собирались 6 сентября 2025 г. Все данные собраны в формате CSV, без преобразований. Для сбора метаданных использовалось...
🔥5❤2🤔2
Давно хотел написать почему я так отрицательно отношусь к перезапуску российского портала data.gov.ru, потому что ещё довольно давно, в мирное время, я довольно много думал о том как его можно бы привести если не в хорошее, то в адекватное состояние. Вот тут прилагаю изображением и картой Xmind одну из схем структуризации мыслей тех времен. Если по этой структуре пройтись и проставить галочки есть/нет, то окажется что перезапущенный портал даже по очень формальным критериям очень сомнителен. А это, подчеркну, довольно давние мысли. Сейчас я бы думал ещё и в сторону особо ценных наборов данных, API и данных для ИИ.
В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.
#opendata #datagovru #mindmaps
В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.
#opendata #datagovru #mindmaps
👍7✍1❤1🔥1