По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
💯11⚡2👍1
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
🔥8👍3🙏3✍2👏1
✍3❤1⚡1
Я всё не успеваю сам что-то написать про портал открытых данных. А тут столько всего интересного. Зам министра, конечно, не дурак, вовремя опомнился и его вовремя убрали из пресс релиза. Догадываетесь почему?😜
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
😁7❤1
Forwarded from Координация профанации
Говорила мне мама: "Всегда делай скриншоты, сынок! На суде пригодятся"
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
😁18🔥2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных все-таки запустили, но без «финансов»
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
Очень много вопросов к структуре и качеству реализации. Начнем с финансов:
- финансы, к сожалению, отдельной категории не удостоились;
- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);
- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);
- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.
Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.
Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.
Напоминаю ссылку на портал: data.gov.ru
🤨3❤2😁2👍1
Если на портале открытых данных РФ data.gov.ru размещены материалы публикация которых является уголовным преступлением, кто в этом виноват?
Anonymous Poll
17%
Ответственный директор департамента (плохо организовал работу)
3%
Курирующий заместитель министра (проглядел, а не должен бы)
15%
Министр! Министр всегда виноват!
11%
Девочка/мальчик секретарь(-ша) который(-ая) (файл загружал)
3%
Программисты подрядчика (что-то там неправильно сделали, не то разместили)
5%
Директор подрядчика (договор подписывал)
5%
Прикомандированный к Минэку сотрудник (проглядел преступный заговор)
40%
Это шайка! Всех наказать
🤣19💯2
Forwarded from Цифровой архив госфинансов и госуправления
Проект «Цифровой архив госфинансов и госуправления» запускает регулярные посты в телеграм-канале
Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.
Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.
Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.
И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: finlibrary.ru
Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.
Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.
Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.
И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: finlibrary.ru
❤9👍2⚡1🤩1🌚1
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
Выводы спойлерить не буду, но они, да, очевидны.
#opendata #russia #datacatalogs
🔥23💯10😢6👍3😱2❤1
Ivan Begtin
pinned a photo
База официальных коннекторов для Claude доступна от Anthropic [1]. Интересно, в какой момент владельцы больших облачных языковых моделей начнут взимать плату за подключением к ним сервисов? Или их бизнес модель будет исключительно через взимание платы за запросы к LLM ?
Ссылки:
[1] https://www.anthropic.com/news/connectors-directory
#ai #claude
Ссылки:
[1] https://www.anthropic.com/news/connectors-directory
#ai #claude
✍2
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚
А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.
В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.
#opendata #datacatalogs
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚
А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.
В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.
#opendata #datacatalogs
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍15🤣9🔥2❤1
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.
#opensource #data #datatools
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.
#opensource #data #datatools
GitHub
GitHub - arc53/DocsGPT: Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research…
Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research, Document analysis, Multi-model support, and API connectivity for agents. - arc53/DocsGPT
👍6🔥5⚡2