Новый инструмент Vanna для Text-to-SQL операций. Под MIT лицензией, обучается на данных, а потом позволяет делать SQL запросы текстовым промптом. Поддерживает множество облачных и локальных векторных хранилищ, больших языковых моделей и баз данных.
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
👍4❤1
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
15 июля откроется обновленный Портал открытых данных. Что можно сказать о новой версии портала уже сегодня?
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли подвидом предлогом инвентаризации данных, от идеи проведения которой Минэк вскоре отказался,
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
Уже завтра будет долгожданный перезапуск Портала открытых данных (data.gov.ru), который не работал корректно уже лет пять, два года из которых доступ к порталу был полностью закрыт:
- сначала были неоднократные проблемы с недобросовестным исполнителем работ по развитию и эксплуатации портала и с контрактами на портал,,
- затем портал закрыли под
- после этого портал был закрыт ради перехода на Гостех, переход на который тоже затянулся минимум на год.
Что мы имеем на сегодняшний день? (речь пойдет о текущей версии портала, подразумеваем, что открыт он будет завтра и к этой дате текущие проблемы могут быть исправлены):
- уже в январе можно было залогиниться и попасть на портал через Госуслуги, в то время как Минэк сообщал о том, что портал еще не прошел аттестационные мероприятия (надеюсь, что мои персональные данные не пострадали);
- в футере сайта указано, что «все права защищены», а это значит, что никакой информацией с портала мы пользоваться не можем. Для сравнения: в футерах сайтов Правительства России и Минфина России указаны лицензии CC Attribution 4.0. Условий использования данных пока не нашла;
- у портала появился «интеллектуальный» помощник ОДИ, но он «пока еще маленький и не знает ответов на вопросы» (даже те, которые предлагает в быстрых командах);
- доступные на сайте новости загружаются «пачками» (по несколько в день) 1-2 раза в месяц, что вызывает вопросы о наличии автоматического обновления;
- в футере сайта указана ссылка на телеграм-чат Минэка по открытым данным, который не обновлялся как минимум два года (не переходите по спамерским ссылкам, которые висят в чате) и в котором поставщики данных по несколько недель ждут ответов на их вопросы о публикации датасетов, но реакции от админов нет;
- датасеты на портале пока недоступны, список организаций тоже, с ними познакомимся завтра.
#открытыеданные #datagovru
✍4💯4
По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
💯11⚡2👍1
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
🔥8👍3🙏3✍2👏1
✍3❤1⚡1
Я всё не успеваю сам что-то написать про портал открытых данных. А тут столько всего интересного. Зам министра, конечно, не дурак, вовремя опомнился и его вовремя убрали из пресс релиза. Догадываетесь почему?😜
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
😁7❤1
Forwarded from Координация профанации
Говорила мне мама: "Всегда делай скриншоты, сынок! На суде пригодятся"
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
😁18🔥2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных все-таки запустили, но без «финансов»
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
🤨3❤2😁2👍1