Ivan Begtin

Австралийский план по внедрению ИИ в госсекторе на 2025 год, охватывает ближайшие полтора года.

Там много интересного и по управлению рисками и по инструментам что планируются, интересно, например, что они создают GovAI Chat как чатбот для госслужащих. И это важно, не для австралийских граждан которые с гос-вом общаются, а именно для госслужащих. Полагаю что главная причина в том чтобы чувствительная информация не утекала в чатботы китайского и американского происхождения.

#ai #policy #regulation

👍10❤4

1.12K viewsIvan Begtin, 07:52

Ivan Begtin

Продолжая рассказывать про применение ИИ агентов для разработки, после экспериментов на не самом критичном коде я добрался до обновления реестра дата каталогов в Dateno и могу сказать что результаты пока что хорошие.

Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.

Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных

Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.

В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.

P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn

#opendata #datacatalogs #ai #dev #datatools

GitHub

GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…

Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry

✍8❤3🔥3🎉2

1.25K viewsIvan Begtin, 15:18

Ivan Begtin

Короткий текст The fate of “small” open source где автор рассказывает о будущей печальной судьбе программных библиотек на примере свой библиотеки blob-util и того что ИИ агенты не предлагают использовать её, а автоматически генерируют код.

Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.

Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.

И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.

Похоже на реалистичный сценарий?

#opensource #ai #llm

Read the Tea Leaves

The fate of “small” open source

By far the most popular npm package I’ve ever written is blob-util, which is ~10 years old and still gets 5+ million weekly downloads. It’s a small collection of utilities for working w…

🤔7😢3❤2🌚2

1.34K viewsIvan Begtin, 13:03

Ivan Begtin

This media is not supported in your browser

VIEW IN TELEGRAM

И в продолжение про PlotSet, альтернативное отображение с помощью кода сгененированного одним из ИИ агентов по визуализации структуры российского бюджета.

Уточнение, цифры я не перепроверял, хотя они похожи на достоверные. Косяки тоже есть, если делать как есть минимальными усилиями. Похоже на то что умеет делать PlotSet, но с открытым кодом и не такое красивое.

#ai #dataviz

👍4❤‍🔥1

1.13K viewsIvan Begtin, edited 16:02

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- DS-STAR новый ИИ агент для решения задач в data science, обещают многое включая автоматизация обработки, анализа и визуализации данных. Заодно препринт где в тексте приведены другие похожие продукты.
- Federal Agency Github Activity визуализация активности на Github'е федеральных государственных агентств, спойлер: многие не публикуют ничего, но есть такие что работают над кодом постоянно. При этом в США есть госполитика о том что не менее 20% разрабатываемого госведомствами кода должно быть открытым кодом. Автор проекта рассказывает об этом подробнее
- Shai-Hulud 2.0 - новая версия вредоноса который инфильтруется в виде пакета для npm и ворует ключи, пароли и реквизиты доступа. В этой версии появился "dead man switch", угроза уничтожения данных пользователя если он мешает распространению. Кстати, что происходит с "AI powered malware" ? Появились ли уже вредоносы умеющие в ИИ?
- LocalAI позиционируется как local-first альтернатива OpenAI, лицензия MIT, быстро набирает популярность. Акцент на более человеческих, а не технических интерфейсах

#opensource #malware #ai #datascience

research.google

DS-STAR: A state-of-the-art versatile data science agent

✍4👍2

1.4K viewsIvan Begtin, 05:12

Ivan Begtin

Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.

У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер

Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.

Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.

В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.

Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.

Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись

Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает

Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.

#opendata #opensource #ai #coding

Statistikmyndigheten SCB

PxWeb

Statistics Sweden (SCB) and Statistics Norway (SSB) has developed a new interface for PxWeb 2.0. The first version was released in October 2025 and is available on Github.

👍9❤4

1.18K viewsIvan Begtin, 06:51

Ivan Begtin

Продолжая тему применения ИИ агентов для разработки, у меня есть ещё одна достаточно сложная задача для ИИ агентов - это коллекция похожих, но отличающихся скриптов по сбору и обработке больших статистических баз данных. Они слишком тяжелые чтобы их вот так просто гонять через системы оркестрации и не требуют ежедневного и даже еженедельного обновления.

Этих скриптов много, штук 20, они последовательно:
1. Выгружают справочники, списки показателей и метаданные из статистических баз
2. Выгружают первичные данные, обычно JSON или CSV
3. Преобразуют первичные данные в файлы parquet
4. Загружает файлы parquet в аналог даталэйка
5. Готовит карточки датасетов для загрузки в индекс Dateno

В общем-то я об этом рассказываю потому что ничего секретного в этом нет, работать с каждым крупным источником таких данных - это отдельный вызов и глубокое погружение в то почему и как он организован. Тем не менее скрипты более менее универсальны и в моих планах было, как минимум задокументировать их, как максимум передать одному из дата инженеров на интеграцию в общую инфраструктуру, а промежуточно систематизировать с помощью ИИ агента(-ов). Хотя бы приведением кода в единый репозиторий. Это пример работы со сложным тех долгом, фрагментированным и недостаточно систематизированным для простых промптов.

Задачей для ИИ агентов было в проведении анализа кода, преобразовании его в единую утилиту командной строки с помощью которой можно вызывать команды из отдельных скриптов, а также в приведении в порядок кода внутри. Это сложная задача, объективно, не математически, а инженерно и потребовало бы много ручной работы если делать это без помощи ИИ агента.

И вот что я могу сказать, по итогам:
1. Copilot для этого просто неудобен, фактически с задачей такого рода он не справляется.
2. Cursor 2.0 лучше, но все равно код недостаточно функциональный, преобразование в библиотеку для Python из скриптов случилось плохо
3. Antigravity выдал если не хороший, то приемлемый результат с систематизацией настроек под каждую платформу и возможности вызова отдельных команд. Сами команды могут содержать ошибки, но это уже нормально, это уже итеративная работа по приведению этого кода в порядок

Пока я продолжаю наблюдать стремительный прогресс ИИ агентов от глобальных игроков и у них нет каких-либо осмысленных открытых альтернатив, не говоря уже о локально страновых. Чтобы рекомендовать разработчикам их использовать надо уметь работать с ними и самому.

В любом случае сложные задачи связанные с интеграцией очень неочевидных инструментов, работой с логикой за пределами чистого программирования и задачи требующие комплексной архитектурной переработки программных продуктов ИИ агенты пока не решают.

#thoughts #ai #coding

✍5❤2

1.29K viewsIvan Begtin, 09:35

Ivan Begtin

DeepScholar свежий ИИ агент помощник ученого-исследователя. В авторах команда из Стенфорда которые делали Lotus, фреймворк по работе с датасетами с помощью LLM (собственно читая про Lotus я про DeepScholar и узнал).

Это не единственный подобный инструмент и их становится все больше.

#ai #research #tools #datatools

✍11⚡4

1.67K viewsIvan Begtin, 14:32

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.

#opendata #ai #wikipedia #government

GitHub

GitHub - mountain-loop/yaak: The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent…

The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent Events, and gRPC 🦬 - mountain-loop/yaak

👍5

1.12K viewsIvan Begtin, 19:15

Ivan Begtin

State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.

Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.

В целом обзор отражает высокую динамику и быстрые изменения.

Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.

#ai #readings

🔥9❤3👍3❤‍🔥2

1.19K viewsIvan Begtin, 21:35

Ivan Begtin

Накопилось какое-то количество рефлексии про применении ИИ агентов для программирования и не только, основная мысль конечно в том что есть много задач в которых ИИ не надо, возможно даже, категорически не надо применять как генеративный инструмент, но однозначно необходимо и возможно даже критично как валидационный инструмент.

К примеру, работа с помощью ИИ с законодательными текстами. Писать сейчас нормативные документы с помощью ИИ может оказаться очень рискованной затеей (судебные решения сгенерированные ИИ пока рассматриваем как курьёз и дефицит квалифицированных кадров). Потому что галлюцинации, потому что отсутствие какой-либо ответственности за ошибки и так далее.

А вот применение ИИ для верификации и валидации написанного текста не столько с точки зрения правил языка, сколько по руководству для применения. Автоматически можно найти противоречия с другими нормативными документами, отсутствие необходимых определений, конфликты в определении понятий, нечеткость формулировок и многое другое. Перечень этих правил проверки поддается существенной автоматизации и даже сложные документы состоящии из сотен поправок в разных нормативных актах могут быть проанализированы и представлены понятным языком.

Я вот пока не знаю в каких странах такие инструменты полноценно внедрят, скорее в относительно небольших и технологически развитых вроде Сингапура или Эстонии, но это представляется очень естественным развитием для всей нормативной работы.

Применительно к состоянию дел с российским законодательством включая решения исполнительной власти я вангую что такой валидационный инструмент если и напишут, то скорее технически грамотные люди имеющие критичный взгляд на происходящее в российских законах. Тогда это станет не техническим инструментом, а скорее медийным продуктом с автоматическим подробным анализом законопроектов и принятых НПА. Приведет ли это к качественному улучшению российского законодательства я не знаю, но усилению кризиса восприятия российских ФОИВов и законодателей как серьёзных нормотворцев может.

#thoughts #ai #aiagents #laws #lawmaking

👍7✍4❤2🕊1

918 viewsIvan Begtin, 07:48

Ivan Begtin

Хорошая картинка (подсмотрена в интернете) существующая в куче вариаций где вместо Undocumented code часто встречается "Tom with documentation in his head" но в целом это системная ситуация когда компании придумывают ИИ стратегии, а они упираются в проблемы текущих процессов, текущих информационных систем и огромные запасы legacy существующего в режиме "работает - не трожь!" которое приходит время потрогать, а трогать то боязно.

Размышляя над этим я бы начал с того что ИИ стратегия должна быть не "маркетинговой пришлепком сверху" с ИИ фичами для клиента, а то что охватывает все процессы которые к этому приводят.

В частности:
1. Активное применение ИИ для документирования кода и приведение legacy кода в порядок. Стоимость этих задач падает постоянно и уже не представляется безусловным кошмаром
2. Применение ИИ агентов для архитектурного перепроектирования интеграции, конвееров данных и унаследованных систем
3. Применение ИИ агентов для формирования итоговых вариантов стратегии ИИ для клиентов (как кусочка более полной ИИ стратегии) на основе всего этого вместе взятого.

Но начинать надо с недокументированного кода и эта задача как раз с помощью ИИ решается вполне реалистично, но Том с документации в голове останется без работы и поэтому это и есть первоочередная задача.

И это касается не только корпоративных ситуаций, но и многих других. Должны ли быть принятые ИИ стратегии у всех госорганов и многих крупных госучреждений? Должна ли резко упасть стоимость разработки государственных информационных систем? Ответ - да, безусловно.

#thoughts #ai #aiagents #legacycode

1👍9⚡2❤2

877 viewsIvan Begtin, 10:03

Ivan Begtin

В продолжение инструментов работы с данными, я на днях обновил утилиту undatum которую создавал для разных манипуляций с данными в командной строке. Главная была особенность в том что она кроме CSV файлов поддерживает всяческие структурированные не плоские форматы данных вроде JSONL, BSON, Parquet и тд.

А также умеет автодокументировать датасеты.

Собственно свежее изменение в том что теперь автодокументирование расширилось поддержкой любых LLM'ом через Ollama, LM Studio, Perplexity, OpenAI и OpenRouter и в поддержке множества языков, можно получать описание буквально на любом языке поддерживаемом выбранной LLM.

Автодокументирование работает не быстро, но зависит только от скорости работы LLM, а не от размера набора данных. Оно полезно для многих задач, у меня лично много задач с тем чтобы приводить описания наборов данных в порядок и один из способов для этого в использовании вот этого инструмента

У меня в отложенных задачах есть интеграция его с утилитой metacrafter, но это уже как-то позже.

#opensource #datatools #ai

1🔥6

512 viewsIvan Begtin, 12:53

About

Blog

Apps

Platform