Ivan Begtin

Продолжая тему применения ИИ агентов для разработки, у меня есть ещё одна достаточно сложная задача для ИИ агентов - это коллекция похожих, но отличающихся скриптов по сбору и обработке больших статистических баз данных. Они слишком тяжелые чтобы их вот так просто гонять через системы оркестрации и не требуют ежедневного и даже еженедельного обновления.

Этих скриптов много, штук 20, они последовательно:
1. Выгружают справочники, списки показателей и метаданные из статистических баз
2. Выгружают первичные данные, обычно JSON или CSV
3. Преобразуют первичные данные в файлы parquet
4. Загружает файлы parquet в аналог даталэйка
5. Готовит карточки датасетов для загрузки в индекс Dateno

В общем-то я об этом рассказываю потому что ничего секретного в этом нет, работать с каждым крупным источником таких данных - это отдельный вызов и глубокое погружение в то почему и как он организован. Тем не менее скрипты более менее универсальны и в моих планах было, как минимум задокументировать их, как максимум передать одному из дата инженеров на интеграцию в общую инфраструктуру, а промежуточно систематизировать с помощью ИИ агента(-ов). Хотя бы приведением кода в единый репозиторий. Это пример работы со сложным тех долгом, фрагментированным и недостаточно систематизированным для простых промптов.

Задачей для ИИ агентов было в проведении анализа кода, преобразовании его в единую утилиту командной строки с помощью которой можно вызывать команды из отдельных скриптов, а также в приведении в порядок кода внутри. Это сложная задача, объективно, не математически, а инженерно и потребовало бы много ручной работы если делать это без помощи ИИ агента.

И вот что я могу сказать, по итогам:
1. Copilot для этого просто неудобен, фактически с задачей такого рода он не справляется.
2. Cursor 2.0 лучше, но все равно код недостаточно функциональный, преобразование в библиотеку для Python из скриптов случилось плохо
3. Antigravity выдал если не хороший, то приемлемый результат с систематизацией настроек под каждую платформу и возможности вызова отдельных команд. Сами команды могут содержать ошибки, но это уже нормально, это уже итеративная работа по приведению этого кода в порядок

Пока я продолжаю наблюдать стремительный прогресс ИИ агентов от глобальных игроков и у них нет каких-либо осмысленных открытых альтернатив, не говоря уже о локально страновых. Чтобы рекомендовать разработчикам их использовать надо уметь работать с ними и самому.

В любом случае сложные задачи связанные с интеграцией очень неочевидных инструментов, работой с логикой за пределами чистого программирования и задачи требующие комплексной архитектурной переработки программных продуктов ИИ агенты пока не решают.

#thoughts #ai #coding

✍6❤3

1.45K viewsIvan Begtin, 09:35

Ivan Begtin

В рубрике интересных открытых наборов данных переписка Джеффри Эпштейна выложенная на сайте комитета по надзору Конгресса США. Что характерно, выложена она в Google Drive (прямая ссылка) и с копией в Dropbox (прямая ссылка). Всего это более 20 тысяч страниц документов которые так и ждут наглядной визуализации, анализа, подключения ИИ ботов для изучения и всего такого.

#opendata #datasets #usa #epstein

United States House Committee on Oversight and Government Reform

Oversight Committee Releases Additional Epstein Estate Documents - United States House Committee on Oversight and Government Reform

👍5🔥4😁2🌚1🌭1

1.63K viewsIvan Begtin, 09:50

Ivan Begtin

DeepScholar свежий ИИ агент помощник ученого-исследователя. В авторах команда из Стенфорда которые делали Lotus, фреймворк по работе с датасетами с помощью LLM (собственно читая про Lotus я про DeepScholar и узнал).

Это не единственный подобный инструмент и их становится все больше.

#ai #research #tools #datatools

✍12⚡5

1.97K viewsIvan Begtin, 14:32

Ivan Begtin

К вопросу о применении ИИ агентов для разработки в задачах ведения баз данных я вдруг понял какому количеству унаследованного кода и данных можно придать новую жизнь.

У меня есть как минимум две таких базы данных которые можно перевести в режим декларативной сборки набора данных и обогащение с помощью ИИ, это:
1. Реестр всех госдоменов в РФ используемый для цифровой архивации
2. Большой каталог всех межгосударственных структур (ОЭСР, ООН и тд.) с привязкой к странам и тд.

Первое вообще не вариант вести открыто уже давно, можно получить обвинение в помощи хакерам, улучшать его сейчас публично совсем сложно, даже при всех благих целях применения - архивации госсайтов.

А вот второе я веду уже лет 10, но года 4 уже не обновлял. Это штука регулярно необходимая для мэппинга разного рода объектов - данных, текстовых материалов и не только.

Одно из применений в визуализациях и аналитике когда надо сравнить какие-то абсолютные или средние значения показателей демографии, ВВП, размеров рынка и тд. по страновым блокам. Сравнить ЕС и БРИКС или рейтинги внутри странового блока.

В общем это большая база эффективно поддающаяся автоматическому обогащению данных и дополняемая метаданными по странам, в принципе, расширяемая от макрорегионов до субрегионов и тогда применяемая для задач обогащения данных и мэппинга много где.

К примеру, реестров стран в мире не меньше нескольких десятков. Когда надо мэппить разные объекты на страны чаще всего используют реестр стран ООН, ISO 3166, справочник Всемирного банка, справочник геослужбы США и несколько частных проектов с открытым кодом. Внутри Dateno активно используется python библиотека pycountry, но это не единственный и не идеальный способ.

Впрочем задачи Dateno с помощью pycountry и разметки через LLM решаются достаточно эффективно, поэтому я на вот этот дата продукт в виде межгосударственных организаций и всего остального рассматриваю скорее как хобби чем как рабочую задачу.

Важно то что трудоёмкость резко падает с применением ИИ агентов потому что теперь они умеют читать данные из Википедии, Wikidata и десятков других справочников с высоким уровнем качества обогащения данных. То на что могли бы уйти месяцы ручной работы можно сделать за несколько дней.

#opendata #opensource #thoughts

👍9✍2🤔2❤1🌚1

1.53K viewsIvan Begtin, 19:09

Ivan Begtin

В рубрике плохих примеров открытых данных открытые данные на портале data.gov.ru (ничего удивительного, да?)
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи

Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.

То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.

Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.

#opendata #russia #datasets

🤔6👍3😁2💯1

1.52K viewsIvan Begtin, 18:25

Ivan Begtin

В качестве легкого оффтопа как человек искренне нелюбящий звуковые сообщения в WhatsApp, Telegram и тд. не могу не отметить что для тех кто в России или тем кто звонит в Россию они могут быть выходом на фоне блокировок РКН.

Раз такое дело то можно и пересмотреть свое отношение к звуковым сообщениям и воспринимать их если не хороший способ коммуникации, то как приемлемый. По крайней мере пока РКН не перешёл к жёсткой борьбе с телеграмом которая ещё может затянуться.

#thoughts #telegram

✍11🔥4💯3❤1

1.52K viewsIvan Begtin, 19:28

Ivan Begtin

В качестве примера данных создаваемых и улучшаемых с помощью ИИ, публикую открытым кодом и открытыми данными Internacia Datasets (Internacia - это международный на эсператно).

В репозитории находятся наборы данных в форматах JSONl, YAML, Parquet и база DuckDB в которых содержатся данные о 252 странах и 727 группах стран и межгосударственных организациях. Там же подробности про содержание и структуру базы, примеры доступа и другие подробности.

Эти наборы данных собираются из большого числа YAML файлов из папок data/countries и data/intblocks. В свою очередь эти YAML файлы вручную или автоматизированно обновляются. В частности чтобы собрать эту базу я взял свою базу межгосударственных организаций 5-летней давности, поправил вручную самое критичное и привел в порядок с помощью ИИ агентов Antigravity и Cursor, после чего снова поправил и в итоге собрал имеющиеся записи в наборы данных.

В Dateno сейчас частично используются часть этой логики используется для мэппинга датасетов на страны, но после завершения SDK для Python'а оно заменит применяемую сейчас библиотеку pycountry на использование этого справочника. а заодно даст возможность, при желании, обогащать датасеты дополнительными фильтрами и метаданными по привязкам к геоблокам, например, отфильтровывая датасеты только из стран Евросоюза или стран БРИКС или стран Лиги арабских государств.

Сейчас идет активный рефакторинг части кода Dateno, так что этот компонент будет там использоваться.

А, в целом, у него много применений. Самое очевидное про которое я все время говорю - это региональные блоковые рейтинги. Хочется сделать рейтинг стран по открытости внутри политических блоков? Без проблем. Хочется отрейтинговать страны ОЭСР по ВВП? Тоже несложно. И многое и многое другое, это справочник, упакованный в современные форматы.

Источники датасета: собственная база, Wikipedia, Wikidata, сайты межгосударственных организаций, реестры стран ООН и Всемирного банка.

Важная особенность в том что в перечне стран есть не только те что являются членами ООН, но и суверенные территории и непризнанные государства. Поэтому их 252, в основе был справочник Всемирного Банка, а он включает многие суверенные территории не являющиеся членами ООН.

Дальнейшее развитие:
1. SDK для Python
2. REST API возможно вместе с другими похожими справочными данными
3. Расширение на субрегиональный уровень по кодам ISO3166-2 (точно не первый приоритет)
4. Исправление ошибок и дополнения метаданных

#opendata #opensource #dateno #datasets

👍7✍2❤1🔥1

1.52K viewsIvan Begtin, 13:06

Ivan Begtin

В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.

Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.

Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.

Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.

Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.

#opendata #opensource #digitalpreservation #data #tools

GitHub

GitHub - iyear/tdl: 📥 A Telegram toolkit written in Golang

📥 A Telegram toolkit written in Golang. Contribute to iyear/tdl development by creating an account on GitHub.

👍14✍7⚡2❤1

1.89K viewsIvan Begtin, 06:30

Ivan Begtin

В качестве нерегулярного оффтопа, периодически думаю над сценариями рассказов про ИИ приближенных к наиболее вероятным сценариям развития технологий, но в научно-фантастическом контексте.

Вот краткие синопсисы некоторых идей:
1.Анти-ИИ терроризм. Группа пострадавших от ИИ людей планируют атаку на электростанции питающие крупнейшие датацентры. Для планирования они тоже используют ИИ, в виде открытой модели со снятыми с неё ограничениями. После успешной, но фатальной атаки они все погибают, а многие глобальные ИИ сервисы отключаются. В финальных кадрах показан офис некой восточноазиатской компании в которой несколько человек обсуждают можно ли заложить в открытую ИИ модель определенные ответы на вопросы и подталкивание к конкретным шагам, а также о том как и как можно подкинуть инструкцию по снятию ограничений потенциальным террористам не выдавая себя.
2. Автономные роботизированные поселения спасают человечество. Человечество не смогло удачно доставить людей на Марс и переключилось в создание автномных роботизированных поселений на Марсе где с помощью централизованного ИИ должны быть созданы условия для прилета людей в поселение где уже будет еда, вода и жизненная среда. Для проверки идеи на Земле создают сотни таких автоматизированных поселений в местах, как правило, плоходоступных и с суровым климатом. Когда наступает апокалиптичное событие (падение астероида, глобальная пандемия или зомби-апокалипсис) то эти поселения оказываются единственным убежищем позволяющем малым группам человечества выжить.
3. Неубиваемый ИИ вирус. Основанный на ИИ вирус захватывает компьютеры и электронные устройства, использует децентрализованное фрагментированное хранение для распространения и накопления украденных данных/реквизитов/паролей и zero-day уязвимостей которые он также находит автономно. Заканчивается все постепенными блокировками любых коммуникаций между странами и отдельными территориями и методичная работа по вычищению. Расходы коллосальные и мир в глубоком шоке, рассказ от лица человека живущего изолированного в глуши и приютившего один из оставшихся экземпляров вируса в умном холодильнике

#thoughts #ideas

👍8❤5🔥3

1.49K viewsIvan Begtin, 11:20

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.

#opendata #ai #wikipedia #government

GitHub

GitHub - mountain-loop/yaak: The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent…

The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent Events, and gRPC 🦬 - mountain-loop/yaak

👍6

1.42K viewsIvan Begtin, 19:15

Ivan Begtin

Open source продукт Minio по организации своего S3-совместимого хранилища больше не open source. 2 декабря разработчики обновили файл README.md где указали что проект теперь только в maintenance mode (режиме обслуживания) и новые возможности и исправление багов более не происходят. Вместо него разработчики теперь продвигают коммерческий продукт MinIO AIStor (хранилище для ИИ продуктов). Это более жесткий сценарий чем то что делали Elasticsearch и MongoDB с лицензией SSPL. Те хотя бы оставляли код для исправления ошибок и проблема была скорее в том что контрибьюторы вкладывались в продукт с ограничениями по лицензированию, а в случае Minio это переход от открытого кода к закрытому продукта.

А большинству ИТ команд теперь придется убирать Minio из своих технологических стеков.

#opensource #minio #techstack

😢16❤3😁3👍2😱1💔1

2.14K viewsIvan Begtin, 20:31

Ivan Begtin

К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.

Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)

2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения

3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.

Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.

К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.

#opendata #users #thoughts #data

👍16❤1✍1

1.56K viewsIvan Begtin, edited 10:33

Ivan Begtin

Как обмениваться большими файлами ~~не привлекая внимания санитаров~~ без необходимости использовать облачные диски или аренды серверов? AltSendme инструмент по отправке данных через зашифрованное peer-to-peer соединение, представляет собой GUI приложение для Linux, Windows и Mac. Можно выбрать конкретный файл и после нажатия на "Start sharing" приложение создает длинны код/тикет который надо любым способом передать получателю и который после ввода этого кода в это же приложение у себя быстро и напрямую скачивает файл.

Лично у меня реакция на такое "почему это не я придумал?!" потому что инструмент простой и полезный.

Всё это с открытым кодом, использует p2p прокотолы iroh у которых также есть аналогичная утилита SendMe для командной строки, также с открытым кодом.

Этот инструмент не единственный, их становится больше, интересно когда появятся первые proxy/vpn инструменты такой же природы? А может они уже и есть.

#opensource #filetransfer #tools #datatools

🔥20❤5✍2

1.65K viewsIvan Begtin, 12:57

Ivan Begtin

State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.

Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.

В целом обзор отражает высокую динамику и быстрые изменения.

Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.

#ai #readings

🔥9❤3👍3❤‍🔥2

1.67K viewsIvan Begtin, 21:35

About

Blog

Apps

Platform