В рубрике полезных инструментов для работы с данными, много лет назад я столкнувшись с тем что регулярно надо откуда-то доставать из API датасеты и с тем что каждый раз много мороки писать скрипты самому и ещё дольше просить кого-то из разработчиков это делать, я написал утилиту apibackuper для скрейпинга через декларативное программирование в конфиг файлах.
Изначально она была для архивации данных в рамках Национального цифрового архива @ruarxive, но оказалась очень удобной во всех смыслах. К слову и в Dateno часть сборщиков метаданных работают на базе apibackuper
Как это работает? Точки подключения к API описываются в специальном конфигурационном файле в расширением cfg в формате configparser.
После запуска утилита последовательно делает запросы к API, сохраняет результаты в виде JSON файлов внутри ZIP контейнера и позволяет потом экспортировать результаты в формат построчного JSON (NDJSON).
Кроме простого перебора выгрузки из API, там же есть режим когда после перебора точки подключения с поиском/листанием данных нужно запросить карточку каждого объекта и/или скачать ассоциированные с данными файлы.
Оказалось очень удобным инструментом, сам пользуюсь им регулярно и надо бы его давно обновить, но руки не доходят потому что "и так работает".
Если бы я делал его сейчас то:
1. Использовал бы JSON файлы сжатые ZST вместо ZIP контейнера
2. Вместо конфиг файлов использовал бы YAML (это несложно, кстати)
3. Добавил бы систему расширений
4. Добавил бы многопоточный режим выгрузки
5. Добавил бы библиотеку шаблонов для подключения к разным типовым API.
И тд, но, в целом, и без этого всё работает. На скриншоте пример конфиг файла для выгрузки метаданных и файлов из системы "Артефакт" (ar.culture.ru) Минкультуры РФ и то как эти данные выглядят в самом API.
#opensource #datatools #data #scraping #API #digitalpreservation
Изначально она была для архивации данных в рамках Национального цифрового архива @ruarxive, но оказалась очень удобной во всех смыслах. К слову и в Dateno часть сборщиков метаданных работают на базе apibackuper
Как это работает? Точки подключения к API описываются в специальном конфигурационном файле в расширением cfg в формате configparser.
После запуска утилита последовательно делает запросы к API, сохраняет результаты в виде JSON файлов внутри ZIP контейнера и позволяет потом экспортировать результаты в формат построчного JSON (NDJSON).
Кроме простого перебора выгрузки из API, там же есть режим когда после перебора точки подключения с поиском/листанием данных нужно запросить карточку каждого объекта и/или скачать ассоциированные с данными файлы.
Оказалось очень удобным инструментом, сам пользуюсь им регулярно и надо бы его давно обновить, но руки не доходят потому что "и так работает".
Если бы я делал его сейчас то:
1. Использовал бы JSON файлы сжатые ZST вместо ZIP контейнера
2. Вместо конфиг файлов использовал бы YAML (это несложно, кстати)
3. Добавил бы систему расширений
4. Добавил бы многопоточный режим выгрузки
5. Добавил бы библиотеку шаблонов для подключения к разным типовым API.
И тд, но, в целом, и без этого всё работает. На скриншоте пример конфиг файла для выгрузки метаданных и файлов из системы "Артефакт" (ar.culture.ru) Минкультуры РФ и то как эти данные выглядят в самом API.
#opensource #datatools #data #scraping #API #digitalpreservation
1✍4❤2🔥1
Новый инструмент Vanna для Text-to-SQL операций. Под MIT лицензией, обучается на данных, а потом позволяет делать SQL запросы текстовым промптом. Поддерживает множество облачных и локальных векторных хранилищ, больших языковых моделей и баз данных.
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
👍4❤1
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
15 июля откроется обновленный Портал открытых данных. Что можно сказать о новой версии портала уже сегодня?
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли подвидом предлогом инвентаризации данных, от идеи проведения которой Минэк вскоре отказался,
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли под
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
✍4💯4
По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
💯11⚡2👍1
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
🔥8👍3🙏3✍2👏1
✍3❤1⚡1
Я всё не успеваю сам что-то написать про портал открытых данных. А тут столько всего интересного. Зам министра, конечно, не дурак, вовремя опомнился и его вовремя убрали из пресс релиза. Догадываетесь почему?😜
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
😁7❤1
Forwarded from Координация профанации
Говорила мне мама: "Всегда делай скриншоты, сынок! На суде пригодятся"
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
😁18🔥2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных все-таки запустили, но без «финансов»
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
🤨3❤2😁2👍1